ディリクレ過程とは？初心者向け入門ガイド共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

ディリクレ過程とは？初心者にもわかる解説

ディリクレ過程とは、「分布の分布」を扱う統計学のアイデアです。データがどのグループに分かれるかを、決めつけず確率で決めていく仕組みと覚えておくと良いです。

通常のデータ分析では、何個のグループに分かれるかを最初に決めますが、ディリクレ過程では未知のグループ数をデータが決めていくイメージです。

この考え方は、ベイズ統計の世界で「分布の分布」と呼ばれる発想に近いものです。基礎となるのは、ある分布Gを、別の分布から作るという発想です。Gはデータの“素地”を表します。

集中パラメータと基底分布

集中パラメータ αは「新しいグループを作る力の強さ」を決めます。大きい値なら新しいグループが生まれやすく、小さい値なら既存のグループで多くのデータを占める傾向があります。

基底分布 Hは「グループの性質のひな形」を決める分布です。ここでのHは、グループが取り得る特徴の範囲や形を事前に決める役割を果たします。

CRP（中国レストラン現象）の直感

ディリクレ過程をやさしく思い出すには、中国レストランの例が便利です。客が来るたびに、既存のテーブルに座る確率はそのテーブルの人の数に比例します。新しいテーブルに座る確率はαと現在のテーブル数で決まります。こうしてデータが増えるにつれて、テーブル（グループ）の数も自然に増えたり、同じグループに集まったりします。

実際の使い方のイメージ

ディリクレ過程は、クラスタリングやデータの隠れた構造を探すときに役立ちます。未知のグループ数に対して柔軟に対応でき、データが新しい特徴を持つときにも対応力を発揮します。

使い方としては、まずαとHを設定し、データを観察します。アルゴリズムとしては、サンプルを回してGを推定し、各データ点がどのグループに属するかを決定します。ここでのポイントは、決してグループ数を固定しないという発想です。

要点をまとめた表

<th>要素

説明
α（集中パラメータ）	新しいグループを作る力の強さ。大きいと新しいグループが増えやすい。
H（基底分布）	グループの特徴のひな形。どんな特徴が取り得るかを決める。
G ~ DP(α, H)	「グループの分布」を生成する分布の意味。データ生成の母集団のようなもの。

このようにディリクレ過程は、データの特性に合わせてグループを柔軟に作ることを可能にします。初学者はまずCRPの直感を掴み、段階的に式の意味へと理解を広げていくと良いでしょう。

実世界の例として、顧客の嗜好分析、画像データのクラスタリング、遺伝子データの分類など、様々な分野で活用されています。未知の構造を探すときの強力な味方として、基礎から少しずつ学んでいくとよいでしょう。

ディリクレ過程の同意語

ディリクレ過程: ベイズ統計で用いられる確率過程の一種。無限次元の確率測度を生成する事前分布で、データをクラスタに割り当てる非パラメトリックなモデルの基盤となる。主なパラメータは基底測度Hと集中度α。
Dirichlet process: 英語名。日本語の『ディリクレ過程』と同じ概念。文献表記として用いられることがある。
DP（Dirichlet Process）: Dirichlet processの略称。論文や実装で頻繁に使われる呼び方。
DP過程: DPの過程を指す略語的表現。ディリクレ過程と同義。
Dirichlet過程: 英語表記の一つ。Dirichletは英語表記で、文献中でそのまま使われることがある。
ディリクレ過程分布: ディリクレ過程が生成する確率測度の「分布」のことを指す表現。過程と分布の両面を指す用法で、文脈により意味が広がる。

ディリクレ過程の対義語・反対語

パラメトリックモデル: ディリクレ過程は非パラメトリックなベイズ推定の代表例で、無限の混合成分を許容します。対義語はパラメトリックモデル。特徴は成分数・パラメータ数を有限に固定する点で、データの複雑さに対する柔軟性は低くなりますが、計算が安定し解釈もしやすくなります。
有限混合モデル: クラスタ数を有限個に固定した混合モデル。ディリクレ過程の無限混合の自由度に対して、こちらは成分数を事前に決めます。推定は比較的単純で計算コストも抑えやすい一方、複雑なデータには適さないことがあります。
ハードクラスタリング（K-means など）: 各データ点を1つのクラスタに厳密に割り当てる手法。ディリクレ過程はクラスタ割り当てを確率的に行い、不確実性を残します。
固定分布仮定: データ生成分布を事前に固定の確定的分布として仮定する考え方。ディリクレ過程はデータに適合する分布を柔軟に学習する点が対比的です。
決定論的推定: 推定結果が一点に決定される手法。ディリクレ過程はベイズ的に不確実性を表現するため、結果が分布として表現されます。

ディリクレ過程の共起語

ディリクレ過程: ベイズ推論で使われる、分布の分布を表す無限次元の確率過程。基底分布 G0 と濃度 α を決めると、データのクラスタ構造を学べる。
ディリクレ分布: ディリクレ過程の有限次元近似として使われる、カテゴリ分布の母分布を表す共役事前分布。
濃度パラメータ α: ディリクレ過程の濃度。α が大きいほど多くのクラスタが生まれやすく、α が小さいほどクラスタが少なくなる。
基底分布 G0: 新しいクラスタが持つパラメータの分布を決める基底となる分布。DPの“母体”となる役割。
基底測度: 基底分布 G0 の別名として使われることがある用語。
中国料理店過程: DPの直感的な生成過程。新しいデータ点が既存クラスタに割り当てられる確率や新しいクラスタができる確率で成り立つ。
中国レストラン過程: 中国料理店過程の別表現。同じ意味で使われることが多い。
スティック・ブレイキング過程: DPを生成する別の表現。棒を分割して各クラスタの重みを決定していくイメージ。
スティック-breaking過程: スティック・ブレイキング過程の日本語表現の一つ。
無限混合モデル: クラスタ数を事前に決めず、データに応じてクラスタを自動的に増減させるモデル。
無限ガウス混合モデル: DPを用いた無限個のガウス成分を持つ混合モデル。
DP混合モデル: Dirichlet Processを使った混合モデルの総称。データを無数のクラスタに割り当てる考え方。
ディリクレ過程混合モデル: DPMMの正式名称の一つ。無限クラスタのガウス混合などを表現する。
非パラメトリックベイズ: パラメータ数を事前に決めず、データに合わせてモデルの複雑さを変える考え方。
ベイズ推論: データと事前情報を組み合わせて、未知の量の確率分布を推定する方法。
事後分布: データを観測した後に更新された確率分布。推定結果の根拠となる分布。
事前分布: データを観測する前に設定する確率分布。DPでは基底分布やDP自体が事前情報となる。
後分布推定: データから得られる事後分布を求める推論の総称。
変分推論: 複雑な後分布を近似する計算手法。DPの推論にも用いられることが多い。
ギブスサンプリング: マルコフ連鎖モンテカルロ法の一種。DPに基づく後分布をサンプルする際に使われる。
Collapsed Gibbs sampling: 一部の変数を積分してクラスタ割り当てのみをサンプリングする効率的手法。
クラスタリング: データを似たグループに分ける手法。ディリクレ過程はクラスタ数を自動で決める点が特徴。
トピックモデル: 文書の話題を推定するモデル。ディリクレ分布を前提とする要素が多く、DPと相性が良い場面がある。
交換可能性: データ点の順序に依存しない性質。DPのデータ生成過程で重要な特徴の一つ。

ディリクレ過程の関連用語

ディリクレ過程 (Dirichlet Process): G ~ DP(α, G0) のように、パラメータαと基底分布G0を用いて『確率測度の分布』を定義する。DPからサンプルされたGは、ほぼ必ず離散的な確率分布となる。有限な分割の分布は Dirichlet 分布に従う。
基底分布 (Base Distribution) G0: 新しいクラスタの中心となる分布。DPの発生元となる確率分布で、クラスタごとのパラメータの分布を決める。
集中パラメータ α: DPのクラスタ数の成長を抑えるパラメータ。αが大きいと新しいクラスタが多く生まれやすく、αが小さいと既存クラスタへ割り当てられる確率が高くなる。
無限混合モデル (Infinite Mixture Model): クラスタ数を事前に決めずデータに応じて自動で増減させる、ディリクレ過程を用いた混合モデル。
ディリクレ過程混合モデル (DPMM): データを無限個の混合成分として捉えるモデル。各データ点はクラスタのパラメータをGからサンプリングして割り当てられる。
スティックブレイキング構成 (Stick-Breaking Construction): Sethuramanの手法でDPを生成する方法。無限個の長さを持つ棒を順に折ってGを作るイメージ。
中国レストラン過程 (Chinese Restaurant Process, CRP): 新しいデータ点が既存のクラスタに割り当てられる確率と、新規クラスタが作られる確率を比喩的に説明する生成過程。
予測分布 (Predictive Distribution): 新しいデータ点X_nの分布を、これまでのデータに条件づけて表現する。CRP/DPの核心となる性質。
ポリア・ウルン過程 (Polya Urn Scheme): 新しいサンプルが既存のクラスタを継続・拡張する確率を、ポリア urnの引き分けと同様の過程で表現する方法。
階層ディリクレ過程 (Hierarchical Dirichlet Process, HDP): 複数のデータセットが共通のクラスタ構造を持つようにDPを階層化したモデル。
中国レストラン・フランチャイズ (CRF, Chinese Restaurant Franchise): HDPの比喩。複数のグループが同じクラスタを共有する仕組みを説明する概念。
Pitman–Yor過程 (Pitman-Yor Process, PYP): DPの一般化で、クラスタサイズ分布をより柔軟にコントロールできる。EPPFがDPとは異なる形になる。
トランケーション近似 (Truncated Stick-Breaking): 無限成分を有限個に切り捨てて近似する実務的手法。計算の安定化・実装を容易にする。
EPPF (Exchangeable Partition Probability Function): データの分割（クラスタリング）の確率を決定する関数。DPに特有の形を持つ。
Gibbsサンプリング / Neal's Algorithm 8: DPを含むモデルの事後推定で使われるサンプリング法。Nealのアルゴリズム8は特にDPMMで有名。
非パラメトリックベイズ (Nonparametric Bayesian): データ量に応じてモデルの自由度を増減させるベイズ的アプローチ。DPはその代表例。