対数尤度関数・とは？初心者のためのやさしい解説と基礎表現共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

対数尤度関数・とは？

対数尤度関数は、データがあるパラメータのもとで起こる「可能性」を比べる道具です。データを説明する分布にパラメータを与え、そのパラメータでデータがどれくらい【ありそう】かを数えます。ここでの大切な点は、尤度はデータの観測結果が出る確率の積で表されるということです。

では、対数尤度関数はこの「確率の積」を対数にとり、足し算に変えたものです。なぜ対数を使うのかというと、積み重ねの計算を足し算にして、数値の計算を安定させ、微分するのも楽にするためです。

観測データが n 個あり、それぞれのデータが独立に、同じ分布から生まれたと仮定すると、尤度 L(θ) は次のように書けます。L(θ) = ∏_{i=1}^n p(x_i; θ)。ここで p(x_i; θ) は x_i というデータが、パラメータ θ のもとで起こる確率密度や確率質量関数です。

この積を対数にとると、対数尤度 l(θ) は次の形になります。l(θ) = log L(θ) = ∑_{i=1}^n log p(x_i; θ)。この「和」を最大にする θ を見つけるのが、パラメータ推定の基本的な流れです。

実際には、分布の種類により 対数尤度 の形が変わります。以下はよく使われる例のひとつ、正規分布の場合です。データ x_i は独立で、x_i ~ N(μ, σ^2) と仮定します。正規分布の確率密度は p(x_i; μ, σ) = (1/(σ√(2π))) exp(-(x_i - μ)^2/(2σ^2)) です。これを用いると、対数尤度は次のようになります。

l(μ, σ) = -n/2 log(2π) - n log σ - (1/(2σ^2)) ∑_{i=1}^n (x_i - μ)^2

この式が意味することは、データの「ばらつき方」や「平均値」が、どの値のときデータがいちばん自然に起こったように見えるかを示してくれるということです。対数尤度の最大化を行うことで、データに最も適した μ や σ を見つけることができます。

実務では、ソフトウェアを使ってこの最大化を計算します。Python のような言語のライブラリや、統計ソフトには 対数尤度 を自動で計算してくれる機能が備わっています。初心者のうちは、まず「データが独立で同じ分布から来ている」という前提と、 対数尤度 の定義、そして「最大化」という考え方を押さえると理解が進みます。

要点の整理

対数尤度関数は、データがある分布に従うとき、パラメータをどう決めるかを考える道具。
対数をとるのは、計算を楽にし、積を和に変えるため。
最大化する θ を見つけることが、推定の基本。

小さな表での整理

手順	説明
1. データの用意	観測値 x1, x2, ..., xn を集める
2. 分布の仮定	例: 正規分布 N(μ, σ^2) など
3. 尤度と対数尤度	L(θ) = ∏ p(x_i; θ) → l(θ) = ∑ log p(x_i; θ)
4. 最大化	l(θ) を最大にする θ̂ を求める
5. 解釈	データに最も適した μ, σ などが分かる

このように、対数尤度関数はデータを説明する「最も自然な確率の取り方」を見つけるための道具です。数式が難しくても、基本は「データを最もよく説明するパラメータを探す」という考え方です。

対数尤度関数の同意語

対数尤度関数: 尤度関数 L(θ) の自然対数をとって得られる関数。モデルのパラメータ θ に依存し、データの発生確率を評価する際に用いられます。対数をとることで乗算が和の形になり、最大化処理が安定します。推定にはこの対数尤度関数を最大化（最大対数尤度法）します。
ログ尤度関数: 対数尤度関数の別名。長い名称を避けたいときや計算表現で使われることが多く、意味は“対数尤度関数”と同じです。
対数尤度: 尤度関数 L(θ) の自然対数を指す量。データが固定されている場合の尤度の対数値で、パラメータ推定ではこの値を最大化します。関数そのものを指すこともありますが、文脈により値を指すこともある点に注意。
ログ尤度: 対数尤度の短縮形。対数尤度と同義で、計算・説明の場面で広く使われます。
尤度の対数: 尤度を自然対数に変換した値を指す表現。対数をとる操作を強調した言い方で、推定時にはこの量を最大化します。
尤度関数の対数: 尤度関数 L(θ) の対数を取った量を指します。対数をとると計算上の扱いが楽になるため、MLEで頻繁に使われます。
対数尤度式: 対数尤度を表す公式・式そのもの。数式としての形を重視する場面で使われます。
対数尤度の式: 対数尤度式と同義。公式としての表現を指す言い方です。

対数尤度関数の対義語・反対語

尤度関数: 対数を取らない元の尤度を表す関数。L(θ)として表現され、最大化する点は対数尤度関数 l(θ) = log L(θ) の最大点と一致します。
負の対数尤度関数: 対数尤度関数 l(θ) の符号を反転させた関数。NLL = -l(θ)。この関数を最小化することで、対数尤度を最大化するのと同等の最適化問題になります。
非対数尤度関数: 対数を取らずに用いる尤度の表現。L(θ) の形そのままを扱い、数値計算上は対数を取る方が安定することが多いです。
指数尤度関数: 対数尤度関数を指数関数で戻したもの。L(θ) = exp(l(θ))。理論上の関係を示す用語で、実務では直接は使われないことが多いです。
最小二乗法: 最尤推定の代替となる推定法。データの誤差を二乗して和を最小化する手法で、正規分布を仮定すると最尤推定と一致する場合があります。対数尤度関数そのものの反対語というより、推定の方針の違いを示す概念です。

対数尤度関数の共起語

尤度関数: 観測データが与えられたとき、パラメータ θ の下でデータが生じる確率密度（連続分布なら密度、離散分布なら確率質量関数）の積を表す関数。
対数尤度: 尤度関数 L(θ) の自然対数。計算を安定させ、積を和に変換して微分を容易にする。
最大化: 対数尤度をできるだけ大きくするパラメータ θ を探す操作のこと。
最尤推定: データに最も適合するパラメータ θ を求める推定法。θ_hat = argmax_θ L(θ)。
パラメータ: モデルの未知の値。例: μ, σ^2, β など。
確率モデル: データ生成過程を確率分布で記述する枠組み。
確率分布: データがとりうる値とその確率を表す関数（密度関数・質量関数）。
独立同分布: 観測ごとに独立で、同じ分布から得られるという前提。
独立: 他の観測と影響を及ぼさない性質。
同分布: すべての観測が同じ確率分布から生成されるという性質。
微分: 関数を変数で微小に変化させたときの変化率を求める計算。
勾配: 対数尤度の一階導関数のベクトル。最適化の方向を示す。
ヘッセ行列: 対数尤度の二階偏微分をまとめた行列。曲率情報を表す。
二階微分: 対数尤度の二階導関数。局所性や漸近性の理論に用いられる。
Fisher情報量: パラメータ推定の不確かさを評価する情報量。対数尤度の期待値の二階導関数の負の値。
情報量: データがパラメータを識別する程度を表す総称。
尤度比検定: 2つの仮説の尤度比を用いて仮説の適合度を検定する方法。
尤度比: 2つのモデルの尤度の比。検定統計量として使われることが多い。
AIC: 赤池情報量規準。モデル選択の指標。計算式は -2 log L(θ_hat) + 2k。
BIC: ベイズ情報量規準。モデル選択の指標。計算式は -2 log L(θ_hat) + k log n。
赤池情報量規準: AICの正式名称。モデル選択の指標の一つ。
KLダイバージェンス: 2つの確率分布 P と Q の間の差を測る非対称な距離。対数尤度の理論的背景にも絡む。
ラプラス近似: 対数尤度の最大点付近を二次近似して大域積分を計算する手法。
期待値: 確率変数の長期的な平均値。
分散: データのばらつきの指標。
GLM: 一般化線形モデル。ロジット・ポアソン回帰など、対数尤度を用いてパラメータを推定する枠組み。
正規分布: 平均と分散で定義される連続分布。MLEの計算が比較的安定。
二項分布: 成功と失敗の回数を扱う離散分布。対数尤度を計算する場面が多い。
ポアソン分布: 一定の時間・空間内での事象発生回数をモデル化する分布。
漸近性: 標本サイズが大きくなると推定量の性質がある極限に近づくこと。
漸近正規性: MLEが大標本で正規分布に従うという重要な性質。

対数尤度関数の関連用語

尤度関数: 観測データが与えられたとき、パラメータ θ の下でデータが起こる確率の大きさを表す関数（L(θ)）。通常は L(θ) = ∏ p(x_i|θ) で表される。
対数尤度関数: 尤度関数の自然対数をとったもの。乗法を和に変えられるため、計算と解析が楽になる。
負の対数尤度: -log L(θ)。最小化問題として扱われることが多く、機械学習の損失関数としても用いられる。
最尤推定: データを最もよく説明するパラメータ θ を求める推定法。対数尤度を最大化する θ を探す。
最尤推定量: 観測データから推定された θ の具体的な値（MLE）。
独立同分布IID: データ点が互いに独立で、同じ分布に従うという仮定。対数尤度はデータごとの和になる。
勾配: 対数尤度関数を θ で微分した一階導関数。最適化の方向を示す。
ヘッセ行列: 対数尤度関数の二階微分の要素からなる行列。最適性や不確実性の評価に使われる。
Fisher情報量: パラメータの推定に含まれる情報量の指標。対数尤度の期待値の負の二階導関数で定義される。
正則性条件: 漸近推定の理論を成立させるための前提条件（微分可能性、サポートの安定性、識別性など）。
漸近正規性: サンプルサイズが大きいと、MLE が正規分布に近づく性質。分散は一般に Fisher情報量の逆で近似される。
尤度比検定: 二つのモデルの尤度を比較して適合度を検定する方法。統計量は -2 log L の差で χ² 分布に近似。
AIC（赤池情報量規準）: モデルの良さと複雑さを両立させる指標。-2 log-likelihood に自由度数のペナルティを加える。
BIC（ベイズ情報量規準）: サンプルサイズに依存するペナルティを用いた情報量基準。より厳しい選択基準として使われる。
情報量基準: AIC や BIC を含む、対数尤度を用いたモデル選択の指標の総称。
ロジスティック回帰における対数尤度: 二値データに対する対数尤度の具体例。回帰係数の推定に用いられる。
サンプルサイズ n の影響: 対数尤度はデータ点の和になるため、n が大きいほど推定の精度が高まる。