

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
予測残差・とは?基礎から解説
このセクションでは、予測残差という言葉を初心者の方にもわかるように丁寧に解説します。
統計や機械学習の世界では、私たちは「現実の値」と「モデルが予測した値」の差を見ます。予測残差とは、その「差」のことを指します。
公式はとてもシンプルです。e = y - ŷ。ここで、y は観測値(実際の値)、ŷ はモデルの予測値です。
例えば、あるデータの観測値 y が 10、モデルが予測した値 ŷ が 8 だった場合、残差 e は 2 になります。別の例では、y が 7、ŷ が 9 のとき、残差は -2 です。
| サンプル | 観測値 y | 予測値 ŷ | 残差 e = y - ŷ |
|---|---|---|---|
| 1 | 10 | 8 | 2 |
| 2 | 7 | 8 | -1 |
| 3 | 12 | 11 | 1 |
| 4 | 15 | 14 | 1 |
この表のように、残差は正の値にも負の値にもなり得ます。残差の大きさは、予測がどれだけ上手かを表す目安になります。
なぜ残差を見るのか
モデルの良さを評価するために、私たちは残差の分布を確認します。小さな残差が多いほど予測が正確、というのが基本的な考えです。また、残差の発生パターンを見れば、モデルの前提が正しく成り立っているか、欠けている情報がないかを判断できます。
残差の正体と注意点
残差は「未来の値」そのものではありません。これは「過去のデータに基づく予測の誤差」であり、次に来る値を必ずしも示しません。したがって、残差を根拠に新しい値を直接決めることはできませんが、モデルの改善には非常に役立ちます。
まとめ
予測残差とは、観測値 y と予測値 ŷ の差を表す指標です。数式 e = y - ŷ、そして小さな残差が多いほど予測が安定します。残差を正しく解釈することで、モデルの強みと弱点を把握し、より良い予測モデルづくりにつなげられます。
実生活でのイメージ
例えば、天気予報やテストの点数予測など、過去のデータを使って未来を推測する場面は日常に多くあります。予測残差が小さいほど、予測が信頼できると考えられ、データ分析の現場でも重要な指標になります。
残差を扱う際のポイント
予測残差を分析する際には、データの前処理が大切です。欠損値を扱い、外れ値を確認し、それらが残差に与える影響を考えることが重要です。そうすることで、より公平で信頼できるモデルを作る手助けになります。
予測残差の同意語
- 残差
- 観測値 y_i と、モデルが予測した値 ŷ_i との差。データ点ごとに算出され、回帰分析の適合度を判断する基本的な指標です。平均がほぼ0になるように設計され、残差の分布をチェックすることで仮定(正規性・等分散性など)を検証します。
- 回帰残差
- 回帰分析で得られる各データ点の残差。回帰モデルの仮定を検証する際に、残差の分布やパターンを調べるために用いられます。例えば、残差の散布が無作為か、特定の傾向が現れないかを確認します。
- 観測残差
- 観測された値と予測値の差を指す別称。文献や会話で用いられる表現の一つです。
- 予測誤差
- 予測モデルが予測した値と実測値の差。将来データの予測精度を評価する際にも使われ、残差と近い概念ですが、文脈によって指す範囲が異なることがあります。
- 予測値との差
- 観測値 y_i と予測値 ŷ_i の差を指す、日常的な言い換え表現。モデルの予測精度を説明する際に使われます。
予測残差の対義語・反対語
- ゼロ残差
- 予測値と実測値の差(残差)が0で、完全に一致している状態を指します。
- 残差ゼロ
- 予測と実測の差が生じていない状態。予測が実測をほぼ完全に説明していることを意味します。
- 完全一致
- 予測値と実測値が全く同じで、残差が発生していない状態です。
- 完全適合
- モデルの予測がデータに完全に適合している状態。残差がほぼゼロに近いと解釈されます。
- 誤差ゼロ
- 予測誤差が0で、予測が実測と同じことを意味します。
- 完璧な予測
- 予測が実測をほぼ完璧に説明している状態で、残差が極めて小さい/0です。
- 理想的予測
- 現実には難しいですが、予測が非常に正確である理想的な状態を表します。
- 100%適合
- データに対して予測がほぼ100%適合している状態を示します。
- 完全説明
- モデルがデータの分布を完全に説明し、残差が生じない状態です。
- 残差なし
- 観測値と予測値の差がない状態。残差が0に近い解釈をします。
- 完全予測一致
- 予測と観測が完全に一致することを意味します。
- 完璧な適合
- 予測がデータに対して非常に高い適合度を持つ状態です。
予測残差の共起語
- 残差
- 予測値と実測値の差。モデルの誤差を示す基本指標。
- 予測値
- 回帰モデルがデータ点の従属変数を予測した値。
- 実測値
- 観測された実際の値。
- 回帰分析
- 従属変数と1つ以上の独立変数の関係を推定・検証する統計手法。
- 最小二乗法
- データに最もよく適合する回帰直線を求める代表的な推定法。
- 誤差
- 実測値と予測値の差、モデルの不確実性を含む。
- 標準誤差
- 推定量の標準偏差。推定の不確実性を表す指標。
- 標準化残差
- 残差を標準偏差で割って単位をそろえた値。異常値検出に有用。
- Studentized残差
- 残差を影響点を除いた状態で標準化した値。
- Cookの距離
- 各データ点が回帰結果に与える影響を測る指標。
- レバレッジ
- データ点の独立変数空間での位置が与える影響度の指標。
- 外れ値
- 他のデータ点と著しく異なる値。
- 残差プロット
- 予測残差を独立変数や観測順序で可視化したグラフ。
- 正規性
- 残差が正規分布に従うかどうかの性質。
- 正規性の検定
- Shapiro–Wilk検定などで残差の正規性を検証する手法。
- ホモスケダスティシティ
- 残差の分散が一定であるという仮定。
- 回帰診断
- モデルの適合度と仮定の妥当性を評価する検査・グラフの総称。
- 予測区間
- 新しい観測値が含まれると予想される区間。
- 信頼区間
- 母集団推定値の不確実性を表す区間。
- 残差の分散
- 残差のばらつきを示す指標。分散や平方和で表現される。
- 自己相関
- 残差間の相関。特に時系列データで重要。
- QQプロット
- 残差が正規分布に従うかを視覚的に判断するグラフ。
- DFFITS
- データ点が回帰結果に及ぼす影響の大きさを示す指標。
- DFBETAS
- データ点が回帰係数に与える影響を示す指標。
- 影響点
- モデル結果に大きく影響するデータ点。
- 影響度
- データ点が推定値へ与える影響の程度を表す概念。
- 残差平方和
- 残差の二乗和。モデルの適合度を評価する指標。
- 分布仮定
- 残差の分布についての仮定(正規分布など)。
予測残差の関連用語
- 予測残差
- 観測値 y_i とモデルが予測した値 ŷ_i の差。実データと予測のズレを表し、モデルの適合度を評価する基本指標です。
- 残差
- 予測残差とほぼ同義。回帰分析での y_i − ŷ_i の差。OLS ではこの残差が正規性・等分散性などの仮定を満たすことが望まれます。
- 誤差項
- データ生成過程におけるノイズ。OLS の仮定では残差はこの誤差項に近い性質を持つと想定されます。
- SSE(残差平方和)
- 各観測の残差を二乗して合計したもので、モデルの未説明変動の総量を示します。
- SSR(回帰平方和)
- 予測によって説明された変動の量を表す指標で、SST = SSR + SSE の分解に関与します。
- SST(全平方和)
- 観測値の総変動。SSRとSSEの和として成り立ちます。
- MSE(平均二乗誤差)
- SSEをデータ点数で割った値。予測誤差の平均的大きさを表します。
- RMSE(根平均二乗誤差)
- MSEの平方根。元のデータと同じ単位で誤差の大きさを直感的に示します。
- MAE(平均絶対誤差)
- 誤差の絶対値の平均。外れ値の影響を抑えた指標として使われます。
- MAPE(平均絶対誤差率)
- 誤差の相対的な大きさをパーセントで示す指標。比較しやすい利点があります。
- R^2(決定係数)
- 全変動のうち、モデルが説明できる割合を示す指標。1に近いほど適合が良いとされます。
- 調整済みR^2
- 自由度を考慮してR^2を調整した指標。変数数が増えると過剰適合を抑える目的で使います。
- 誤差分解
- SSTをSSRとSSEに分解して、説明力と未説明変動を分けて評価する考え方です。
- 残差プロット
- 予測値に対する残差を視覚化した図。非線形性や異分散性の兆候を探ります。
- 正規性検定
- 残差が正規分布に従うかを検定します。Shapiro–Wilk や Kolmogorov–Smirnov など。
- QQプロット
- 残差の分布が正規分布に近いかを視覚的に評価する図です。
- Durbin-Watson検定
- 残差の自己相関(特に一階自己相関)を検定する統計量です。
- 等分散性 / 異分散性
- 残差の分散が一定かどうか。異分散性は推定の信頼性を低下させる要因です。
- 自己相関
- 残差が時系列データとして互いに関連している状態。時系列モデルで重要です。
- Cook's 距離
- 各データ点が回帰モデル全体へ与える影響の大きさを評価する指標です。
- レバレッジ点 / 影響点
- データ点の独立性や影響力を示す指標。大きなレバレッジはモデルの挙動に影響します。
- 外れ値 / 異常値
- 残差が極端に大きいデータ点。モデルの評価や推定を歪めることがあります。
- 標準化残差
- 観測点の残差をその観測の標準誤差で割った値。外れ値の検出に用いられます。
- 予測区間
- 新しい観測値が入り得る範囲を、予測の不確実性を含めて示す区間です。
- 信頼区間
- 平均予測値の不確実性を示す区間。モデルの平均的予測値の区間推定に使います。
- 過学習 / 過剰適合
- 訓練データに対して残差が小さくても、新規データで性能が低下する現象です。
- クロスバリデーション
- データを分割してモデルの予測性能と残差を検証する方法。汎化性能を測るのに有効です。
- ホワイトノイズ
- 残差が時間的にも独立で、平均0・分散が一定・自己相関がない状態。理想的なモデル残差の特性です。
- モデル診断
- 残差分析を含む、モデルの適合性を総合的に評価する一連の手法です。



















