

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
過分散とは何かを知る基本
過分散とはデータのばらつきが平均の予測より大きい状態のことを指します。統計では平均と分散の関係が大事なヒントになります。
特にカウントデータを扱うときに現れやすく、Poisson分布の仮定が崩れると過分散が生まれます。
ここでは中学生にも分かる言葉で過分散の意味と原因を解説します。
過分散が起こる原因
原因には次のようなものがあります。未観測の違いがデータに混ざっていると分散が大きくなることがあります。
またデータがクラスタリングされる場合や、データをまとめるグループが多い場合にも過分散が生じます。
検出のヒント
データが従うモデルが正しいかを確かめるとき、分散が平均とどのくらいか離れているかを見ます。代表的な目安は Pearson カイ二乗統計量を用いた分散の推定 です。データ数を自由度で割った値が1より大きいと過分散の可能性が高くなります。
対処法とモデルの選択
過分散を放置すると推定値があやふやになります。対処としては ネガティブ二項回帰 や 準ポアソン回帰 などのモデルを使います。これらは分散と平均の関係を柔軟に扱え、信頼できる予測を作りやすいです。
少し具体的なイメージをつかむための表を下に置きます。
| モデルの特徴 | 平均と分散 | 適用例 |
|---|---|---|
| Poisson | 平均と分散が等しい | 単純なカウントデータ |
| 過分散あり | 分散が平均より大きい | 観測データがクラスタリングされる場合 |
| ネガティブ二項回帰 | 分散を調整可能 | 過分散があるデータに適用 |
まとめとして、過分散はデータの性質を正しく理解する手がかりです。データを正しくモデル化するためには過分散を見つけ出し適切なモデルを選ぶことが大切です。
過分散の同意語
- 過分散
- データの分散が平均よりも大きくなる現象。ポアソン分布など、分散が平均と同じになると仮定するモデルで起きやすく、データのばらつきが大きい場合に適切なモデルを選ぶ必要があります。過分散があると、標準的な推定の誤差が過小評価されることがあるため、ネガティブ・ビノム回帰や階層モデルなど、分散を別に扱える手法を使うことが多いです。
- 過度分散
- 過分散と同じ意味で使われる表現。データの分散が過度に大きい状態のこと。Poisson などの基準モデルの仮定と異なるときに用いられます。
- 過分散性
- 過分散である性質のこと。データが平均に対して大きなばらつきを示す性質を指し、分析時にはこの性質を考慮して適切なモデルを選ぶ必要があります。
- 過分散現象
- データ中に観察される過分散という現象を指します。統計モデルの適合性を評価するときに、過分散があるかどうかを確認する指標として使われます。
- オーバー分散
- 英語の Overdispersion の直訳・外来語表現。教科書や論文・講義ノートで見かける表現で、初心者にも理解しやすい言い方です。
過分散の対義語・反対語
- 欠分散
- 分散が平均より小さい状態。データのばらつきが相対的に少なく、過分散の対義語として使われることが多い表現です。
- 等分散
- 分散が平均とほぼ等しい状態。平均と分散が同じような値になる、Poisson分布の仮定に近い性質を指します。
- 等分散性
- データ全体で分散がほぼ一定である性質。回帰分析や分散分析の前提として重要な「等分散の性質」を表します。
- 低分散
- 分散が全体として控えめである状態。過分散の反対の意味合いで使われることがあります。
- ホモ分散
- 群間で分散がほぼ同じ、あるいは全体で分散が均一である状態。統計モデルの前提のひとつとして扱われます。
- 均一分散
- データ全体で分散が一定に保たれている状態。等分散とほぼ同義で使われることが多い表現です。
過分散の共起語
- ポアソン分布
- カウントデータを表す代表的な確率分布。平均と分散が同じ値になるが、データが過分散だとこの性質は崩れる。
- 負の二項分布
- 平均に対して分散が大きくなるデータを説明する分布。過分散を説明する典型的な分布モデル。
- ポアソン回帰
- 従属変数がカウントデータの一般化線形モデル。過分散があると標準誤差が過小評価されやすい。
- 負の二項回帰
- 過分散を考慮した回帰モデル。ポアソン回帰の過分散問題を緩和する選択肢。
- 準ポアソン回帰
- 過分散を調整するため分散が平均の倍率で拡張されるGLMの手法。
- 一般化線形モデル
- GLMは従属変数の分布とリンク関数を組み合わせた回帰の枠組み。
- GLMの分散族
- Poisson や Binomial など、従属変数の分布のタイプを決める要素。
- 過分散検定
- データが過分散しているかを検出する統計的検定。
- 分散-平均比
- VMR。ポアソンを想定した場合は1で、過分散があると1を超える。
- 過分散係数
- 分散が平均に対してどの程度大きいかを示す指標。φやαとして表現されることがある。
- 分散パラメータ
- モデルで分散の大きさを決めるパラメータ。負の二項回帰などで用いられる。
- データの過分散
- 観測データの分散が期待分散を上回る状態。
- ピアソン残差
- GLMの適合度を評価する残差の一種。過分散があると大きな値を取りやすい。
- 平均
- データの中心傾向。ポアソン分布では平均と分散の関係が特徴的。
- 分散
- データのばらつきを示す指標。過分散は分散が過大になる状態。
- データのばらつき
- データの散らばり具合の表現。過分散は通常このばらつきが過度になる。
- 過分散の原因・要因
- 関連性のある観測、異質なサブポピュレーション、欠測データなどが原因となり得る。
過分散の関連用語
- 過分散
- データの分散が平均より大きい状態。カウントデータでポアソン分布の仮定が崩れる現象です。
- ポアソン分布
- 平均と分散が等しいとする離散確率分布。過分散の基礎モデルとして比較対象になります。
- 分散-平均比
- 分散を平均で割った指標。1より大きいと過分散の目安になります。
- 負の二項分布
- ポアソン分布の過分散を表現できる分布。平均と過分散パラメータで分散を増大させる性質を持ちます。
- 負の二項回帰
- 従属変数がカウントデータで過分散がある場合に用いる回帰モデル。説明変数とカウントの関係を推定します。
- ポアソン回帰
- 従属変数がカウントデータの場合の基本的な回帰モデル。過分散があると仮定が崩れやすい点に注意。
- 準ポアソン
- 分散を平均のスケール因子で調整するモデル。過分散の影響を標準誤差に反映させる実務的手法。
- ゼロ膨張ポアソン
- データに多くの0が混ざる場合に、0を別の過程で説明する混合モデル。
- ゼロ膨張負の二項
- ゼロ膨張を負の二項分布で扱う混合モデルの一種。
- ハードルモデル
- ゼロを別段階で扱い、非ゼロ部分をポアソン/負の二項で回帰するモデル。
- 混合モデル
- 観測が複数のサブ集団から来る可能性を想定し、過分散を説明する柔軟なモデル。
- 未観測異質性
- 説明変数に含まれない個体差が分散を増やす原因となること。
- 階層データ/階層モデル
- データが階層構造を持つ場合、クラスタ内の相関を考慮して過分散を扱う設計。
- クラスタリング
- データがクラスタに分かれており、クラスタ内の観測が相関すると過分散が生じやすい。
- Cameron–Trivedi過分散検定
- Poisson回帰で過分散があるかを検定する代表的な統計手法。
- Deviance/ Pearson chi-square比
- モデルの適合度を示す指標。1を大きく超えると過分散の可能性が高い。
- GEE(Generalized Estimating Equations)と頑健標準誤差
- 相関のあるデータにも適用でき、過分散の影響を緩和する推定手法。
- ゼロ過剰
- データに0が過剰に出現する現象。ゼロ膨張モデルで扱います。



















