自由度調整済み決定係数とは何か？初心者向けガイドで理解を深めよう共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

自由度調整済み決定係数とは何か

この記事では 自由度調整済み決定係数 について、初めて学ぶ人にも分かるように、やさしい言葉で解説します。まずは結論から言うと、自由度調整済み決定係数は回帰分析でモデルの良さを比べるときの指標です。R^2 の良さだけを見ると、説明変数を増やすと必ず値が上がってしまうことがあり、過学習のリスクを見逃してしまいます。そこで自由度調整済み決定係数は、そのリスクを少し抑えた「公正な比較」ができるように作られています。

なぜ自由度調整が必要か

R^2 は回帰式がデータをどれだけうまく説明しているかを表す指標です。値が1に近いほど良いとされますが、説明変数を多く追加すれば自然と高くなります。すると本当にモデルが良くなったのか、それともただの偶然なのかが分かりにくくなります。そこで 自由度調整 が入ると、説明変数を増やすほどペナルティがかかり、必ずしも値が上がらなくなります。結果として、同じデータセットで複数のモデルを比較する際に、過剰な変数を持つモデルを不利にすることができます。

どうやって計算されるのか

ざっくり言うと式は次のようになります。自由度調整済み決定係数は 1 − (1 − R^2) × (n − 1) / (n − p − 1) で計算されます。ここで n はデータのサンプル数、p は説明変数の個数です。式の意味は、サンプルが少ないときにはペナルティが大きく、説明変数が多いときにはペナルティが大きくなる、という点です。数値はモデルによって異なり、高い値が必ずよいとは限りません。

実例で見る感覚的な捉え方

例えばデータが 10 個あり、説明変数が 2 個のモデル A と 3 個のモデル B があるとします。モデル A の R^2 が 0.85 で、モデル B の R^2 が 0.88 だったとします。R^2 だけを見るとモデル B が良さそうですが、自由度調整後の値を見れば違いが出ます。仮にモデル A の自由度調整済み決定係数が約 0.81、モデル B が約 0.83 だった場合、説明変数を増やしても B のほうが公正に良いと判断できる可能性が高いです。

表で見る比較のコツ

指標	意味	特徴
R^2	モデルがデータをどれだけ説明できるか	説明変数を増やすと上がりやすい
自由度調整済み決定係数	説明変数の数を考慮した説明力の指標	過学習のリスクを抑えつつ比較可能

使い方と解釈のコツ

実務では、複数のモデルを同じデータセットで比較する際に 自由度調整済み決定係数 を使います。ポイントは次の3つです。
1つ目、同じデータセット、同じ従属変数 で比較すること。
2つ目、複数の指標を見ること。自由度調整済み決定係数だけで判断せず、R^2、AIC、BIC など他の指標も併せて検討します。
3つ目、検証データでの評価。クロスバリデーションやホールドアウト法で実際の予測力を確かめると安心です。

結論

自由度調整済み決定係数は、モデルを正しく比較するための強力なツールです。適切に使えば、説明変数を増やすときの過学習を防ぎ、現実的な予測力の高さを見極めやすくなります。回帰分析を学ぶときには、まずこの指標の性質を理解し、他の指標と組み合わせて判断する癖をつけましょう。

自由度調整済み決定係数の同意語

自由度調整済み決定係数: 回帰モデルの適合度を、説明変数の数とサンプル数による複雑さの影響を考慮して修正した指標。値は0〜1の範囲が一般的で、説明変数が増えると過大評価を抑える効果を持つ。
調整済み決定係数: 自由度を考慮して調整した決定係数の別称。説明変数の数に応じたペナルティを加えることで、モデルの過剰適合を判断する指標。
修正済み決定係数: 自由度補正を施した決定係数の別表現。Adjusted R-squared の日本語表現として使われることがある。
自由度補正済み決定係数: 自由度を補正した決定係数のこと。複数の説明変数を含むモデルの適合度を比較する際に用いられる。
自由度を考慮した決定係数の補正値: 自由度の影響を受けて修正した決定係数の別名。一般的には同じ意味で使われる。
調整済みR二乗: Adjusted R-squared の日本語表現のひとつ。R二乗を説明変数の数で補正した指標。
調整済みR-squared: Adjusted R-squared の別表現。自由度補正を施した R^2 の意味合い。
Adjusted R-squared: 英語表記の名称。日本語の記事ではそのまま用いられることが多く、自由度調整済み決定係数の英語名として理解される。

自由度調整済み決定係数の対義語・反対語

未調整R^2: 自由度の補正を行わない決定係数。説明変数の数が増えると実際の説明力を過大評価しがちな指標。
調整なし決定係数: 未調整R^2と同義。説明変数の数を考慮していない版の決定係数。
原始決定係数: 補正前の決定係数。自由度補正を含まない版で、モデルの複雑さを反映しにくい。
自由度未補正R^2: 自由度補正を適用していないR^2の別称。複雑なモデルで過大評価されやすい点が特徴。
未補正決定係数: 補正を行わない決定係数の別称。説明変数の数の影響を受けやすい指標。

自由度調整済み決定係数の共起語

回帰分析: 従属変数と1つ以上の独立変数の関係をモデル化する統計手法。
決定係数: モデルが従属変数の変動をどれだけ説明できるかを示す指標。
自由度: データから推定に使える独立情報の数。自由度は調整済みR^2の計算に影響。
調整: モデルの複雑さを考慮して指標を補正すること。過剰適合を抑制。
R^2: 回帰モデルの適合度を表す基本指標。
調整済みR^2: 自由度を考慮してR^2を補正した指標で、説明変数の追加による過剰適合を抑制。
F検定: 回帰モデル全体の有意性を評価する統計検定。
t検定: 各回帰係数が統計的に有意かを評価する検定。
回帰係数: 各説明変数が従属変数へ与える影響の大きさと方向を表す値。
残差: 予測値と実測値の差。モデルの誤差部分。
誤差項: モデルが説明しきれない部分を構成する乱れ。
自由度の影響: 自由度が変わるとR^2やAdjusted R^2の値が変動する要因。
多重共線性: 説明変数同士が強く相関している状態で、係数推定を不安定にする。
説明変数: モデルに投入され、従属変数を説明する要因（独立変数）。
従属変数: モデルが予測・説明する対象となる変数。
モデル選択: どの変数を含めるかを決定するプロセス。
AIC: 情報量規準の一つ。モデルの適合度と複雑さのバランスを評価。
BIC: AICに似た基準だが、サンプルサイズをより厳しくペナルティする。
サンプルサイズ: データ点の数。推定の信頼性と自由度に影響。
最小二乗法: 残差の二乗和を最小化して回帰係数を推定する基本法。
回帰診断: 前提条件の適合性を検証する分析。
線形性: 従属変数と各独立変数の関係が直線的であるという前提。
等分散性: 残差の分散が説明変数の水準に関して一定である前提。
正規性: 残差が正規分布に従うという前提。
ダミー変数: カテゴリ変数を0/1などの数値表現に変換する方法。
交互作用項: 2つ以上の説明変数の組み合わせ効果を表す変数。
変数選択: 前進・後退・ステップワイズ法など、含める変数を決定する手法。
モデルの過剰適合: 訓練データに過度に適合し、未知データでの予測性能が低下する現象。
相関係数: 2つの変数間の線形関連の強さを表す指標。
共線性: 説明変数間の高い相関を指す総称。
適合度指標: モデルのデータ適合の良さを示す様々な指標の総称。

自由度調整済み決定係数の関連用語

自由度調整済み決定係数: 説明変数の数に応じたペナルティを加味した決定係数で、モデルの複雑さの影響を調整してある。0〜1の範囲を取り、R^2よりも複雑なモデルの適合度を適切に評価できるが、場合により負になることもある。計算公式は一般に次のとおり。R^2_adj = 1 - (1 - R^2) × (n - 1) / (n - k - 1)。ここで n はデータ点の数、k は説明変数の数（切片を除く）。
決定係数: 回帰モデルがデータの総変動のどの程度を説明できるかを示す指標。値が1に近いほど適合度が高いが、説明変数を増やすと必ず上昇する性質があるため、過剰適合の目安にもなる。
回帰分析: 2つ以上の変数の関係性を直線近似などの統計モデルで表現し、目的変数を説明変数で予測する手法。
重回帰/多重回帰: 説明変数を複数用いて目的変数を予測する回帰分析の形。
説明変数: モデルで目的変数を説明する側の変数。
目的変数: 回帰モデルが予測・説明する対象となる変数。
RSS（残差平方和）: 実測値とモデル予測値の差の二乗の総和。小さいほど良い。
TSS（全平方和）: 観測値の総変動。
SSR（回帰平方和）: 回帰によって説明された変動の部分。
自由度: データの独立した情報の数。モデルや統計量の計算に使われる。
サンプル数: データ点の数、通常 n で表す。
説明変数の数: モデルに含まれる独立変数の数、切片を除く場合が多い。
F統計量: モデル全体が統計的に有意かどうかを判定する指標。大きいほど説明力がある可能性を示す。
p値: 帰無仮説が正しいときに、観測された統計量以上の値が得られる確率。小さいほど有意。
AIC: Akaike情報量規準。モデルの適合度と複雑さをバランスさせる指標。値が小さいほど良い。
BIC: Bayesian information criterion。サンプルサイズを重視する情報量規準。値が小さいほど良い。
Mallows Cp: モデルの適合度とパラメータ数のバランスを評価する指標。Cp が近似的にモデルの説明変数数と一致すると良いとされる。
クロスバリデーション: データを訓練データと検証データに分け、未知データでの予測性能を評価する手法。過学習を抑制する目的。
過学習: 訓練データに過度に適合してしまい、未知データでの予測性能が低下する現象。
逐次法（ステップワイズ法）: 前進選択・後退淘汰・組み合わせの総称。変数を追加・削除してモデルを自動的に選択する手法。
ダミ変数: カテゴリカル変数を 0/1 の変数に変換して回帰に使う方法。
多重共線性: 説明変数同士が強く相関している状態。推定値の信頼性が下がることがある。
VIF（分散膨張因子）: 多重共線性の程度を示す指標。値が1に近いほど良く、値が大きいほど問題となる。
係数: 回帰式における各説明変数の重み。目的変数の予測に対する寄与を示す。
係数のt値: 係数が0であるという仮説の有意性を検定する統計量。大きいほど有意性が高い。
標準誤差: 推定値のばらつきを表す指標。小さいほど精度が高い。
RMSE: Root Mean Squared Error。予測誤差の平方根平均。小さいほど良い。
MAE: Mean Absolute Error。予測誤差の平均絶対値。比較的外れ値に強い指標。
交互作用項: 説明変数同士の相互作用が予測に与える影響を表す項。