

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
残差分散・とは?
残差分散は、回帰分析で重要な指標のひとつです。残差とは、実際の観測値とモデルが予測した値の差のことです。回帰モデルは「y = f(x)」のように予測を行いますが、すべてのデータ点で予測がぴったり合うわけではありません。そのずれをきちんと測るのが残差です。
残差分散は、この残差の「ばらつき」の大きさを示します。具体的には、すべての残差を2乗して平均したものです。データ点が多いほど、ばらつきの評価が安定します。
ここで重要なポイントは、残差分散が小さいほどモデルの予測がデータに近いことを意味します。一方で、残差分散が大きいと、モデルはデータの動きを十分に捉えられていない可能性があります。
残差と残差分散の計算方法
ある回帰モデルで、観測値 y_i と予測値 ŷ_i がそれぞれ n 個あります。残差は e_i = y_i − ŷ_i です。これを2乗して合計し、自由度 n−1 で割ると
s^2 = (1/(n-1)) Σ_{i=1}^n (y_i − ŷ_i)^2 となります。ここで s^2 が「残差分散」です。
実際の例
例として、ある季節の気温と氷の売り上げの関係を直線モデル y = a + b x で予測するとします。観測データを用意して predicted ŷ_i を計算し、残差 e_i を求めます。表計算ソフトを使えば、各データ点の e_i^2 を足し合わせ、n−1 で割るだけです。残差分散が小さいほど、予測はデータに近いと言えます。
残差分散とモデルの前提
線形回帰を使うとき、いくつかの前提があります。特に注意したいのが 等分散性(ホモスケダシティ)という考え方です。これは「残差の分散が説明変数の値によって大きくならない」ことを指します。もし x が大きくなると残差が大きくなる場合、残差分散は大きくなり、モデルの信頼性が下がることがあります。
表で整理
| 意味 | |
|---|---|
| 残差 | 観測値 y_i と予測値 ŷ_i の差 e_i = y_i − ŷ_i |
| 残差分散 | 残差の二乗和を自由度で割った値 s^2 |
| Ŷ | 予測値、モデルの出力 |
このように、残差分散はモデルの性能を評価する指標のひとつです。もっと詳しく学ぶと、回帰分析の前提条件やデータのばらつき方を理解する手助けになります。
よくある誤解
残差分散が小さい=データの個々の値が予測と一致しているという意味ではありません。さまざまなモデルがあり、残差分散だけではモデルの良さを完全には判断できません。他の指標(決定係数 R^2 やAIC, BIC など)と併用します。
練習問題
次のデータで残差分散を計算してみましょう。データ: y = [2,4,5,7], ŷ = [2.5,3.5,4.5,6.5] なら e = [-0.5,0.5,0.5,0.5]、e^2 = [0.25,0.25,0.25,0.25]、s^2 = (0.25×4)/(4-1) ≈ 0.333...
このように、残差分散はモデルの理解に役立つ基本的な考え方です。データ分析を学ぶ際には、まず残差分散の意味と計算方法を押さえ、次に前提条件や他の指標へと知識を広げていくと良いでしょう。
まとめ
残差分散は、回帰モデルの予測と実測値のズレのばらつきを表す指標です。小さいほど予測がデータに近いことを示しますが、単独でモデルの良し悪しを判断する指標として使うべきではなく、他の指標と組み合わせて評価するのがポイントです。
残差分散の同意語
- 残差分散
- 回帰モデルにおける残差(観測値と予測値の差)の分散を表す指標。データのばらつき具合を表す基本用語。
- 残差の分散
- 上記と同じ概念の言い換え。残差のばらつきを表す分散の表現。
- 残差の方差
- 残差の分散を指す別表現。方差と分散は同義語。
- 誤差分散
- 回帰モデルの誤差項の分散。OLS などの古典的回帰で使われる概念で、残差分散と対応することが多い。
- 誤差の分散
- 同義。回帰の誤差項の分散を指す表現。
- エラー分散
- 英語の error variance の直訳。回帰の誤差項の分散を指す際に使われる表現。
- 誤差項の分散
- 回帰式に含まれる誤差項そのものの分散を表す表現。
- 回帰残差の分散
- 回帰分析で得られる残差の分散。回帰残差という語を強調した言い換え。
残差分散の対義語・反対語
- 説明変動の分散
- データ全体のうち、モデルが説明できる部分の分散。残差分散の対になる概念で、変動のうち“説明できる部分”を表します。
- 回帰分散
- 回帰分析で説明される分散。総分散のうち、説明変動(回帰)として分解される部分のこと。
- 信号成分の分散
- データに含まれる有意な信号成分の分散。ノイズ(残差)に対する対義語的な概念として使われることがある。
- 説明可能な分散
- モデルが説明できると考える分散。説明変動に近い意味で使われます。
- モデルによる説明分散
- モデルによって説明される分散のこと。残差分散の対になる概念です。
残差分散の共起語
- 残差
- 回帰式の予測値と観測値の差。 e_i = y_i - ŷ_i。モデルの適合度を評価する基本的な要素。
- 誤差
- 観測値と回帰線の真のずれを表す乱数項。通常 ε_i と表記される。
- 残差平方和
- すべての残差を二乗して足し合わせた値。RSS。モデルの適合度を総合的に示す指標。
- 平均二乗誤差
- 残差平方和を自由度で割った値。MSE。残差分散の不偏推定として使われることが多い。
- 自由度
- データ数からパラメータ数を引いた値。残差の自由度は n - p のように計算される。
- 不偏推定
- 推定量の期待値が真の値と等しくなる性質。残差分散の不偏推定には RSS/(n-p) が用いられる。
- 最尤推定
- 母集団の分散 σ^2 の最尤推定。正規分布を仮定すると RSS/n がMLEとなることが多い。
- 最小二乗法
- OLS。観測値と予測値の差の二乗和を最小にする回帰係数を推定する手法。
- 回帰分析
- 従属変数と独立変数の関係を分析・予測する統計手法の総称。
- 線形回帰
- 従属変数 y が説明変数と線形関係で表される回帰モデル(例: y = β0 + β1x + ε)。
- 正規性
- 残差が正規分布に近似するという仮定。推定や検定の信頼性に影響。
- 等分散性 / ホモスケダシティ
- 残差の分散が説明変数の水準に関係なく一定である性質。
- 異方差性
- 残差の分散が説明変数の値によって変化する状態。推定の信頼区間に影響を与える。
- 分散分析 / ANOVA
- モデルが説明する分散と残差の分散を分解して検定する分析手法。残差平方和は誤差の分散成分。
- 回帰平方和
- 回帰が説明する分散の総和。全体の平方和(SST)と関係する。
- 残差平方和 / RSS
- 誤差の分散成分。モデルの適合度が悪いほど大きくなる。
- 回帰係数の標準誤差
- 回帰係数推定値の不確実さを表す。残差分散 σ^2_hat に依存。
- 信頼区間
- 未知の母数の推定値が含まれる範囲を示す区間推定。残差分散が根拠。
- 予測区間
- 新しい観測値の値が入ると予測される範囲を示す区間推定。残差分散を用いる。
- 標準化残差 / スチューデント化残差
- 残差を標準化して外れ値を検出・評価する指標。
- R^2 / 決定係数
- モデルがデータの分散のうちどれだけを説明しているかを示す指標。
- Durbin-Watson 検定
- 残差の自己相関を検定する統計量。自動相関がある場合残差分散の推定に影響。
- σ^2 / 母分散
- 真の誤差の分散。未知だが推定で近似される。
- σ^2_hat / 推定された分散
- データから計算された残差分散の推定値。
残差分散の関連用語
- 残差分散
- 回帰分析で観測値と予測値の差(残差)に関する分散の推定。OLS では残差平方和 SSE を自由度 (n - p) で割って求める。母集団の誤差分散 σ^2 の推定量として用いられる。
- 残差
- 観測値 y_i と回帰モデルの予測値 ŷ_i の差 e_i = y_i - ŷ_i のこと。予測の誤差を表す。
- 残差平方和 (SSE)
- 全観測値の残差を二乗して足し合わせた値 Σ e_i^2。残差分散の基礎となる量。
- 平均平方残差 (MSE) / 誤差平均平方
- SSE を自由度で割った値。回帰モデルの誤差の標準的な分散の推定値。
- 自由度
- 統計量を分解して分散を推定する際の自由なデータ数。回帰では誤差の自由度は n - p、回帰自由度は SSR に対応する。
- 総平方和 (SST)
- 観測値のばらつき全体を表す Σ (y_i - ȳ)^2。残差分散と回帰分解の土台になる。
- 回帰平方和 (SSR)
- モデルが説明できる変動を表す Σ (ŷ_i - ȳ)^2。SSR / dfR は回帰平均平方 (MSR) の値になる。
- 回帰平均平方 (MSR)
- SSR を回帰自由度 dfR で割った値。回帰要因の効果の大きさを評価する際に使う。
- 誤差平均平方 (MSE)
- SSE を残差自由度 dfE で割った値。残差の分散の推定値。
- 自由度 (df) の内訳
- 回帰自由度 dfR、残差自由度 dfE、総自由度 dfT など、分解分析で使われる自由度の集合。
- 総平方和 (SST) / 説明と残差の合計
- データ全体のばらつきを表す指標。SST = SSR + SSE の関係を持つ。
- 決定係数 (R^2)
- SSR / SST または 1 - SSE / SST によって算出。モデルがデータの変動をどれだけ説明するかの指標。
- 調整済み決定係数 (Adjusted R^2)
- 説明変数の数を調整して R^2 の過大評価を抑える指標。自由度の影響を考慮した値。
- 最小二乗法 (OLS)
- 回帰係数を残差平方和を最小にするように推定する方法。残差分散の推定にも直結。
- 誤差項 / 誤差
- 観測値と真の回帰関係との差。ε_i または e_i と表記される。
- 母集団分散 (σ^2)
- 誤差項が従うと仮定する母集団の分散。未知値として推定される。
- 標準誤差 (Standard Error)
- 推定量のばらつきを表す指標。係数推定値の標準偏差など。
- F検定
- モデルの全体的な有意性や説明変数の集合効果を検定する統計量。MSR / MSE で算出。
- 分散分析 (ANOVA)
- 回帰モデルの成分(回帰要因と誤差)に分解して差を検定する分析手法。
- 等分散性 (Homoscedasticity)
- 残差の分散が説明変数の値に依存しない仮定。
- 正規性 (Normality) of residuals
- 残差が正規分布に従うと仮定することが多い。推定や検定の前提。
- 独立性 (Independence) of residuals
- 残差が互いに独立であると仮定。
- 回帰自由度 (dfR)
- SSR が使用する自由度。説明変数の数に応じて決まる(一般に回帰の要因数に関連)。
- 残差自由度 (dfE)
- SSE が使用する自由度。通常は n - p。
- 不偏推定量 (Unbiased estimator) for σ^2
- SSE/(n-p) は母集団分散 σ^2 の不偏推定量である。



















