ディリクレ分布とは？初心者にもわかる解説と使い方ガイド共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

ディリクレ分布とは何か

ディリクレ分布は、多変量の確率を扱うときの重要な分布です。K 個のカテゴリがあり、それぞれのカテゴリがとる確率 p1, p2, ..., pK を考えるとき、これらの確率は「合計が1になる」という約束を持つベクトルとして表されます。このようなベクトルの分布をディリクレ分布と呼びます。パラメータは α1, α2, ..., αK で、各 αi は「そのカテゴリが起こりやすいかどうか」の前提を表します。

ディリクレ分布は、ベイズ推定で「事前分布」として使われることが多く、特にカテゴリが複数ある確率分布を推定する際の標準的な道具です。よく似た分布にベータ分布がありますが、ディリクレ分布はベータ分布を拡張したものと考えると分かりやすいでしょう。ベータ分布が「2つのカテゴリの確率」を扱うのに対し、ディリクレ分布は「3つ以上のカテゴリの確率」を扱います。

どういうときに使うの？

たとえば、ニュース記事を3つのジャンル（スポーツ、政治、エンタメ）に分類するとします。各記事がどのジャンルに属するかを推定する際、ジャンルごとの確率ベクトルをディリクレ分布として仮定すると、データからその確率を更新して得ることができます。統計モデルの「先にある信念（先行）」として使い、新しい記事が増えるとその先行をデータに合わせて徐々に修正していくのです。

どうやって作られるの？

理論的には、ディリクレ分布は「K 個のガンマ分布を独立に作り、それらを和で割る」という作り方で生成します。具体的には α1, α2, ..., αK を与えると、Y1 〜 YK を独立に Gamma(αi, 1) からサンプリングします。次に P1 = Y1 / (Y1 + ... + YK), …, PK = YK / (Y1 + ... + YK) として得られるベクトル P = (P1, ..., PK) がディリクレ分布 Dir(α1, ..., αK) に従います。

直感的なイメージ

ディリクレ分布は「確率の割合の組」を表す分布だと考えると分かりやすいです。K 個のカテゴリそれぞれに“起こりやすさ”の程度を示すαパラメータがあり、それらから作られる確率の組が、実際には「今あるデータから見える世界の割合」として現れます。α が大きいほど、そのカテゴリの割合が出やすく、逆に α が小さいとそのカテゴリはあまり出てこない傾向になります。合計が必ず1になるという性質も、日常の割合と似ています。

重要なポイント

Dir(α1, ..., αK) は、K 個のカテゴリの確率ベクトルを表す。
各 αi は「そのカテゴリが起こりやすい」という信念を表す。
合計は 1、確率は 0 以上。
2つのカテゴリならベータ分布、3つ以上ならディリクレ分布となる。
ベイズ推定の「先行分布」として扱われ、データを観測するごとに更新される。

テーブルで比較してみよう

分布名	カテゴリの数	関係	用途の例
ベータ分布	2	ディリクレ分布の2カテゴリ版	コインの表が出る確率など
ディリクレ分布	3以上	多カテゴリ版	NLP のトピック分布、カテゴリ分類の事前分布

実践的な使い方のひと例

自然言語処理の分野では、トピックモデルの一部としてディリクレ分布が頻繁に使われます。文章が複数のトピックで構成されると仮定し、各トピックが現れる確率を Dir(α) で表現します。新しい文書を観察するたびに、データを使って α を再推定したり、P(z | d) のような潜在変数の推定を行います。最終的には「文書はどのトピックがどのくらい混ざっているか」という分布を得ることができます。

中学生にもわかるまとめ

ディリクレ分布は、複数の選択肢があるときの「どの選択肢がどのくらいの割合で起こるか」を確率として表す箱のようなものです。α の値を変えると、どの選択肢が出やすくなるかの“傾き”が変わります。ベータ分布はこの箱を2つの選択肢だけにした特別なケースで、ディリクレ分布はそれを3つ以上に拡張したものです。データが増えるほど、箱の中の割合の推定が安定していきます。

ディリクレ分布の同意語

ディリクレ分布: 多変量の確率ベクトルを対象とする分布で、K個のカテゴリの確率を成分として表す x=(x1,...,xK) が取り、全ての xi ≥ 0、Σ xi = 1 という制約の下で定義されます。パラメータは α=(α1,...,αK) で、密度は p(x) ∝ ∏i xi^{αi-1}（正規化定数はベータ関数の一般化）。α0 = Σi αi が大きいと分布はより集中します。平均は αi/α0、共役事前分布として multinomial 分布に対して用いられ、ディリクレ過程の基礎となります。
Dirichlet分布: 英語表記の日本語表現の一つ。内容はディリクレ分布と同じで、パラメータ α=(α1,...,αK) によって決まり、密度は p(x) ∝ ∏i xi^{αi-1}、xは x_i ≥ 0、Σ x_i = 1 の制約下の K 次元確率ベクトルとして定義されます。 multinomial の共役事前分布として広く使用されます。
Dirichlet distribution: 英語表記の名称で、ディリクレ分布と同じ分布を指します。Kカテゴリの確率ベクトルを対象とし、パラメータ α=(α1,...,αK) により形が決まり、密度は p(x) ∝ ∏i xi^{αi-1}、xは全て非負かつ和が1になるベクトルです。 multinomial の共役事前分布として用いられ、ディリクレ過程の基礎となります。

ディリクレ分布の対義語・反対語

正規分布: 実数値の連続変数をとる分布。平均μ、分散σ^2で特徴づけられ、鐘形の曲線を描く。
ベルヌーイ分布: 1回の試行で成功（1）か失敗（0）の2値をとる分布。パラメータは成功確率p。
二項分布: 独立したn回の試行で、成功の回数を表す分布。パラメータは試行回数nと成功確率p。
ポアソン分布: 一定の時間・領域内に起こるイベント回数を表す離散分布。パラメータλは平均発生率。
多項分布: n回の試行で各カテゴリが出現する回数の分布。パラメータは試行回数nと各カテゴリの確率ベクトルp。
多変量正規分布: 複数の連続変数を同時に扱う正規分布。平均ベクトルと共分散行列で特徴づけられる。
ガンマ分布: 正の実数の連続分布。形状パラメータαと尺度βで特徴づけられる。
一様分布: 定義域内の全点が等確率で現れる分布。区間[a,b]上の一様分布が典型的な例。

ディリクレ分布の共起語

多項分布: 離散カテゴリがk種類あるときの確率分布。ディリクレ分布はこの多項分布の確率ベクトルの事前分布として使われ、カテゴリの選ばれ方の不確実性を表します。
ベイズ推定: データと事前情報を組み合わせて確率を推定する枠組み。ディリクレ分布は多くの場合、事前情報として用いられます。
事前分布: 未知パラメータに対する先入観を確率分布で表すもの。ディリクレ分布はカテゴリ確率の事前分布として使われます。
事後分布: データ観測後に更新されたパラメータの分布。ディリクレ分布は多項分布の共役事前分布として、事後分布もディリクレになります。
共役分布: 事前分布と事後分布が同じ分布族になる性質。ディリクレ分布は多項分布の共役として広く使われます。
形状パラメータ: ディリクレ分布を決めるパラメータ。各カテゴリの過分布の偏りを決定します。
集中度パラメータ: パラメータの総和で、分布がどれだけ“集中”するかを表す指標。
α（アルファ）: ディリクレ分布の形状パラメータの総称。各カテゴリの平均とばらつきを決定します。
ディリクレ先分布: Dirichlet prior の別名。カテゴリ確率の事前情報を表現します。
次元数: 確率ベクトルが取りうるカテゴリの数。ディリクレ分布はこの次元の単体上で定義されます。
確率ベクトル: 各カテゴリの確率を並べたベクトル。和は1になる性質を持ちます。
単位和制約: ベクトルの全要素の和が1になる条件。ディリクレ分布はこの制約の下で定義されます。
潜在ディリクレ配分: 文書中のトピック分布や語彙分布の潜在構造を表すためにディリクレ分布を使うモデルの総称。
トピックモデル: 文書集合をトピックの混合として表現する統計モデル群。ディリクレ分布は核となる要素です。
LDA（潜在ディリクレ配分）: 代表的なトピックモデルで、文書の語彙分布とトピック分布にディリクレ分布を適用します。
ディリクレ過程: 無限次元のディリクレ分布の拡張。非パラメトリックな統計モデルで使われます。
ガンマ分布: ディリクレ分布の成分は独立したガンマ分布を正規化して作られることが多いです。
Beta分布: ディリクレ分布の2次元版で、2カテゴリの場合はBeta分布として表現されます。
サンプリング: 未知分布からランダムにデータを得る手法。ディリクレ分布の推定にも使われます。
Gibbsサンプリング: 条件付き分布から順次サンプルをとるMCMC法。ディリクレ分布・LDA推定で広く用いられます。
モンテカルロ法: 乱数を使って数値的に推定する一般的な手法。ディリクレ分布の事後推定にも活用されます。
NLP（自然言語処理）: テキストデータ処理の分野。LDAなどディリクレ分布を用いた手法が多く使われます。
正規化定数: ディリクレ分布の確率密度を正規化する定数。次元と形状パラメータに依存します。
確率分布の一種: ディリクレ分布は確率分布の一種で、サポートは確率ベクトルの単体です。

ディリクレ分布の関連用語

ディリクレ分布: 多変量の確率分布で、K 個のカテゴリの確率ベクトル x = (x1, ..., xK) が x_i ≥ 0 かつ ∑ x_i = 1 となる分布。α ベクトルによって形状を決め、カテゴリ分布の共役事前分布としてベイズ推定で広く使われる。
Beta分布: ディリクレ分布の特別ケースで、K=2 のときの分布。x1 が Beta(α1, α2) に従い、x2 = 1 - x1。
カテゴリ分布: 離散的なカテゴリの確率分布。ディリクレ分布はこのカテゴリ確率の連続的前分布を提供する。
多項分布: n 回の独立試行で各カテゴリの出現回数をカウントする分布。ディリクレ分布はこの分布の共役事前分布として用いられることが多い。
Dirichlet-Multinomial分布: Dirichlet prior を持つ Multinomial 分布の周辺分布。観測数に対するカテゴリ分布の統計的性質を表す。
Gamma分布: 正の実数の連続分布。ディリクレ分布は各 α_i に対して Gamma(α_i, 1) を独立にサンプルして正規化することで生成されることが多い。
多変量ベータ関数（正規化定数）: B(α) = ∏ Γ(α_i) / Γ(α0)（α0 = ∑ α_i）で、ディリクレ分布の密度の分母になる。
αパラメータ（集中パラメータ）: 各カテゴリの相対的な重要度や prior の集中度を決める正の実数のベクトル。
α0（総和）: α0 = ∑ α_i。分布の形状や期待値計算に現れる合計値。
対称ディリクレ分布: 全ての α_i が同じ場合のディリクレ分布。対称性があり、特定のカテゴリに偏りが少ない prior を表す。
Dirichlet過程: 無限次元のディリクレ分布の一般化。確率測度の prior として、非パラメトリックなベイズ推定で使われる。
Stick-breaking過程: Dirichlet過程を構成する生成法の一つ。確率の連続的な分割を組み合わせて、無限の質量を表す。
Chinese Restaurant Process: ディリクレ過程の離散化バージョンの生成過程。クラスタ割り当ての分布を直感的に表す。
基底測度（G0）: Dirichlet過程の中心となる基底分布。新しいサンプルはこの G0 に基づいて生成される。
LDA（潜在ディリクレ配分法）: 文書中のトピック分布や語彙分布の prior としてディリクレ分布を用いる代表的なトピックモデル。
サンプリング方法（Gammaサンプルから正規化）: 各 α_i に対して Gamma(α_i, 1) を独立にサンプルし、それらを合計で正規化して x_i を得る方法。
密度関数: Dirichlet分布の密度は f(x|α) = 1/B(α) ∏ x_i^{α_i-1、x_i ≥ 0、∑ x_i = 1} で表される（B(α) は多変量ベータ関数）。
期待値: E[x_i] = α_i / α0。
分散と共分散: Var(x_i) = α_i(α0 - α_i) / [α0^2(α0+1)], Cov(x_i, x_j) = - α_i α_j / [α0^2(α0+1)]（i ≠ j）。