heteroskedasticityとは？初心者でも分かる統計の基本と対処法共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

heteroskedasticityとは？

このページでは、heteroskedasticity（ヘテロスケダスティシティ）が何を意味するのか、どうして起こるのか、そしてデータ分析でどう対処するのかを、初心者にも分かるように解説します。

そもそも「分散」とは何か

統計の「分散」は、データがどれくらい広がっているかを表す値です。回帰分析では、モデルが予測した値と実際の値の差、すなわち残差のばらつきを見ます。 この残差の広がりが一定かどうかが、分析の結果を大きく左右します。

heteroskedasticityの意味と現れ方

「heteroskedasticity（ヘテロスケダスティシティ）」とは、残差の分散が説明変数の値によって変わる現象を指します。たとえば、xが大きくなるほど残差が大きくなるか、あるいは小さくなる場合がこれに該当します。データの性質や測定方法の違い、データの層別（年齢層や地域など）などが原因になることが多いです。

なぜ問題なのか

回帰分析の前提のひとつは「残差の分散が一定（同分散）」です。これが崩れると、標準誤差の推定が歪み、t検定や信頼区間の解釈が不安定になることがあります。つまり、予測の信頼性を過大評価したり、モデルの比較が正しくできなくなる可能性が高くなります。

原因の例

原因はさまざまです。データの性質として非線形な関係がある場合、説明変数の取り方が不適切な場合、観測数が多い範囲と少ない範囲でばらつきが異なる場合などが挙げられます。実務では、データをよく観察し、モデルの仕様を見直すことが大切です。

対処方法

対処法はいくつかあります。

1) データの変換：対数変換やBox-Cox変換などを用いて残差の分散を落ち着かせる方法です。

2) 加重最小二乗法（WLS）：残差の分散が大きい箇所を重視して推定を安定させます。

3) ロバスト標準誤差：分散の不均一性を考慮した標準誤差を使って検定を行います。

4) モデルの再設計：説明変数を追加したり、非線形項を入れるなど、より適切なモデルを選ぶ方法です。

実践的な例

例えば、住宅価格を説明するモデルを考えます。部屋の数や広さといった説明変数が増えるほど、価格の予測誤差のばらつきが大きくなることがあります。これは、点の密度が高いエリアや高級な物件でデータの分散が大きくなるために起こり得ます。こうした場合、上記の対処法を順に試して、モデルの信頼性を高めることが大切です。

実務での検出のヒント

データを可視化してばらつきを確認するのが第一歩です。残差プロットを見たり、説明変数別に分散を確認したりします。より厳密な検出には、Breusch-Pagan検定やWhite検定といった検定を使うこともありますが、初心者にはまずデータの傾向を図で確認することをおすすめします。

表で見るポイント

<th>項目

説明
定義	残差の分散が説明変数の値に応じて一定でない現象を指す
影響	標準誤差の推定が歪み、検定の信頼性低下
対処	データ変換、WLS、ロバスト標準誤差、モデルの再設計

まとめ

heteroskedasticityは、回帰分析でよく出会う「ばらつきの不均一」の問題です。原因を探り、適切な対処を行えば、信頼できる予測と検定結果を得ることができます。初心者はまずデータの分布と残差の様子を観察し、変換や頑健化の方法を順番に試してみるのがおすすめです。

heteroskedasticityの同意語

異分散性: 回帰分析の残差（誤差項）の分散が、観測値の水準や説明変数の値によって変化する性質のこと。
異分散: 残差の分散が一定でない状態のこと。英語の heteroskedasticity の別表現として使われます。
非等分散性: 説明変数の値に応じて残差の分散が変化する性質のこと。等分散性の反対。
非等分散: 分散が一定でない状態を指す表現。
不等分散性: 分散が一定でなく、データ全体で分散のばらつきが生じる性質を指します。
不等分散: 残差の分散が観測ごとに変化する状態。よく使われる表現の一つ。
分散の不均一性: 残差の分散が観測値ごとに異なる状態を表す表現。
ヘテロスケダスティシティ: 英語の用語を日本語表記にしたもので、回帰モデルの誤差の分散が一定でない現象を指します。

heteroskedasticityの対義語・反対語

同分散性: 回帰分析において、誤差の分散が説明変数の値に関係なく一定である性質。heteroskedasticity（非等分散）の対義語として用いられる基本的な日本語表現です。
等分散性: 同分散性と同義の別表現。説明変数の水準によって誤差の分散が変化しない状態。
同分散: 誤差の分散が一定である状態を指す名詞形。日常会話的には同分散性とほぼ同じ意味で使われます。
等分散: 同分散性と同義の表現。誤差の分散が全観測でほぼ一定の状態。
homoskedasticity: 英語の統計用語。回帰分析の誤差分散が説明変数の値に依存せず一定である性質。対義語はheteroskedasticity。
均質分散性: 分散が観測ごとに均一で一定である状態を指す表現。実務では同分散性とほぼ同義として用いられることがあります。

heteroskedasticityの共起語

異分散: 回帰の誤差項の分散がデータの値に応じて変わる状態。heteroskedasticityの核心。
残差: 回帰モデルの予測値と実測値の差。異分散は残差のばらつきが値で変わることから生じやすい。
残差プロット: 残差を散布図にした図。分散の変化を視覚的に確認するのに便利。
White検定: White検定は、誤差の分散が説明変数の値やその二乗などに依存するかを検定する非パラメトリックな方法。
Breusch-Pagan検定: BP検定は、残差の分散が説明変数に依存しているかを統計的に検定する手法。
Goldfeld-Quandt検定: Goldfeld-Quandt検定は、データを一定の順序で並べたときに分散が変化しているかを検定する方法。
Box-Cox変換: Box-Cox変換はデータの分布を正規に近づけたり、分散を安定化させる変換のひとつ。
対数変換: データを対数に変換して、分散の不均一性を抑える一般的な方法。
頑健標準誤差: 異分散がある場合でも信頼区間を正しく推定できるよう、推定に使う標準誤差を工夫する方法。
OLS(普通最小二乗法): 最も基本的な線形回帰の推定法。分散が一定でないと標準誤差の推定が影響を受けやすい。
回帰分析: データ間の関係を線形などのモデルで表す統計手法。
等分散性: 誤差の分散が一定である状態。heteroskedasticityの反対概念。

heteroskedasticityの関連用語

heteroskedasticity: 誤差項の分散が観測値ごとに一定ではない性質。OLS推定では標準誤差の推定や仮説検定の信頼性に影響を与えることがある。
homoskedasticity: 誤差項の分散が説明変数の値に関係なく一定である状態。OLSの標準誤差推定が妥当になる仮定のひとつ。
Cook-Weisberg test: Cook–Weisberg検定。回帰残差の平方を説明変数で回帰し、異分散の存在を検定する方法。主に二次項・交差項を含む形で用いられる。
Breusch-Pagan test: Breusch–Pagan検定。残差の平方を説明変数（定数項を含む場合も）で回帰し、検定統計量で異分散の有無を判断する。
White test: White検定。残差の平方を説明変数の二乗項・交互項まで含む一般的な異分散性検定。非線形な関係も検出可能。
Goldfeld-Quandt test: Goldfeld–Quandt検定。データを並べ替え、特定の区間を除外して分散が異なるかを検定する方法。
ARCH: 自己回帰条件付き異分散性（ARCH）。時系列データで現在の分散が過去の誤差の大きさに依存するモデル。
GARCH: 一般化されたARCH（GARCH）。過去の分散と過去の分散の影響を組み合わせて現在の分散を決定する柔軟なモデル。
conditional heteroskedasticity: 条件付き異分散性。分散が条件（例: 過去の値や説明変数）に依存して変化する性質。
heteroskedasticity-robust standard errors: 異分散性を前提に標準誤差を頑健に推定する方法。回帰係数の信頼区間・検定を正しく行えるようにする。
HC0: 基本的な頑健共分散推定量。OLS残差を用いて分散を調整する最も原始的な形。
HC1: HC0に自由度補正を加えた頑健標準誤差。サンプルサイズが小さい場合の推定を改善する意図。
HC2: 残差のレバレッジ補正を組み込んだ頑健推定量の一種。
HC3: HC2よりさらに補正を強化した版。Stataなどで広く用いられることが多い。
HCCME: 異分散一貫共分散推定量（Heteroskedasticity-Consistent Covariance Matrix Estimator）。HC0/HC1/HC2/HC3などを含む、異分散性に頑健な共分散行列推定。
GLS: 一般化最小二乗法。誤差の共分散が等分散でない場合にも効率的に推定できる方法。
FGLS: 実現可能一般化最小二乗法。未知の分散構造をデータから推定してGLSを適用する実用的手法。
Box-Cox transformation: Box–Cox変換。λをパラメータとして分布と分散を安定化させるデータ変換。
variance-stabilizing transformation: 分散を安定化させる目的の一般的な変換。対数変換、平方根変換などが代表例。
Cross-sectional heteroskedasticity: 横断データ（時点が同じ観測群）における異分散性。
Time-series heteroskedasticity: 時系列データにおける異分散性。過去の情報に依存して分散が変動する特徴。
LM test: Lagrange Multiplier検定。異分散性を検出する際の検定のひとつで、BP検定やWhite検定の代替・補助として用いられることがある。