

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
標本共分散・とは?初心者のためのやさしい解説
統計の世界には、二つのデータが一緒にどのように動くかを表す指標がいくつかあります。標本共分散は、そのうちのひとつです。まずは意味をかみ砕いて考えましょう。
共分散とは、二つの変数が「同じ方向に動く傾向があるか」や「逆の方向に動く傾向があるか」を数値で表したものです。数値がプラスなら片方が大きくなるともう片方も大きくなる、マイナスなら片方が大きくなるともう片方は小さくなる傾向を示します。ここでいう“標本”とは、全体のデータの一部を使って推測する場合のことです。母集団すべてのデータを知ることが難しいとき、標本共分散を使って二つの変数の関係を推定します。
公式と計算のイメージ
標本共分散の公式は次のとおりです。S_xy = Σ (x_i - x̄)(y_i - ȳ) / (n-1)。ここで i はデータ点の番号、x_i と y_i は対応するデータ、x̄ は x の標本平均、ȳ は y の標本平均、n はデータ点の数です。
この式の意味は、各データ点の「偏差」を掛け合わせて、それをデータ点の数 minus 1 で割る、というシンプルな考え方です。偏差とは、そのデータ点が平均からどれだけ離れているかを示す量です。
計算の流れ(手順)
1. x_i と y_i のペアを集める
2. x の標本平均 x̄ と y の標本平均 ȳ を求める
3. 各データ点について (x_i - x̄) と (y_i - ȳ) を計算する
4. それらを対応するペアで掛け、全てを合計する
5. 合計値を (n-1) で割る
具体的な例
例として、次のような2つのデータ列を考えます。x = [2, 4, 6]、y = [3, 4, 5]。この場合、x̄ = 4、ȳ = 4 です。偏差は次のとおりです。
| x_i | y_i | x_i - x̄ | y_i - ȳ | 積 (偏差の積) | |
|---|---|---|---|---|---|
| 1 | 2 | 3 | -2 | -1 | 2 |
| 2 | 4 | 4 | 0 | 0 | 0 |
| 3 | 6 | 5 | 2 | 1 | 2 |
この例では、積の合計は 4、n-1 は 2 なので、S_xy = 4 / 2 = 2 となり、標本共分散は 2 です。
標本共分散と相関係数の関係
相関係数 r は、r = S_xy / (s_x s_y) で定まります。ここで s_x と s_y はそれぞれ x, y の標本標準偏差です。相関係数は -1 から 1 の範囲に収まり、値が 1 に近いほど直線的な強い関係を、-1 に近いほど反対向きの強い関係を示します。なお、標本共分散はデータの単位に依存するため、別のデータセット間で直接比較するには注意が必要です。
まとめと使い方のヒント
・標本共分散は、2変量の関係を初歩的に把握するための指標です。データが同じ方向に動くか、逆方向に動くかを示します。
・単位の影響を受けやすく、結論をデータの“強さ”として誤解しないようにしましょう。強さを比較したいときは、相関係数を使うと分かりやすいです。
・回帰分析や機械学習の前処理、データ探索の第一歩として活用できます。
表でおさらい
| 項目 | 説明 |
|---|---|
| 定義 | 二変量の共変動の標本値(データの同時変化度) |
| 公式 | S_xy = Σ (x_i - x̄)(y_i - ȳ) / (n-1) |
| 関係 | 相関係数 r = S_xy / (s_x s_y) |
| 注意点 | 単位に影響を受けるため、比較には相関係数を用いるのが通常 |
以上が、標本共分散の基本的な考え方と、実際の計算の流れ、簡単な例、そして相関係数との関係の概要です。中学生でも日常のデータ観察を通じて感覚的に理解できるよう、身近な例を用いて丁寧に説明しました。必要に応じてデータのグラフ化や、他のデータセットでの計算を試してみてください。
標本共分散の同意語
- サンプル共分散
- 定義: 標本データ X と Y から推定される共分散。n-1 で割って計算する。式: 1/(n-1) ∑_{i=1}^n (x_i - x̄)(y_i - ȳ)。初心者向けの解説: X と Y の値が一緒に動く傾向を示し、正の値なら同じ方向に動く、負の値なら反対方向に動くことを意味します。
- 共分散
- 定義: 母集団(全体)データに対しての共分散。X と Y の間の線形関係の度合いを表す指標で、期待値ベースの計算 E[(X-μX)(Y-μY)] が用いられます。
- 標本の共分散
- サンプル共分散と同義。標本データから推定された共分散で、X と Y の関係性を測る指標です。式はサンプル共分散と同じ 1/(n-1) ∑ (x_i - x̄)(y_i - ȳ)。
- 共分散行列
- 複数の変数間の共分散をまとめた行列。対角成分は各変数の分散、非対角成分が変数間の共分散です。
- 標本共分散行列
- 標本データから推定した共分散行列。各要素は対応する2変数の共分散を表します。
標本共分散の対義語・反対語
- 独立性
- 2変数が統計的に独立である状態。ある変数の値がもう一方の分布を全く知らせない。通常は共分散が0になりやすいが、「独立であること」と「共分散が0であること」は同義ではない点に注意。
- 完全独立
- 2変数が完全に独立している状態。任意のイベントが互いに影響を及ぼさない。共分散は必ず0。現実データでは稀だが理論上の理想。
- 無相関
- 2変数間の相関が0である状態。直線的な関係がないことを意味する。共分散が0であることを示すが、非線形な関係が存在する可能性がある点に留意。
- 0共分散
- 標本共分散が0に近い、あるいは0である状態。線形の関係が見られないことを示す指標だが、非線形な関係は排除されない。
- 負の共分散
- 2変数が反対方向に変動することを示す共分散。Cov(X,Y) < 0 の場合に発生する。
- 反相関
- 2変数が強く反対方向に変動する関係。実務では『負の相関』とほぼ同義で使われる表現。
標本共分散の共起語
- 標本共分散
- 二つの変量の標本データから推定した共分散。sXY = sum (xi - xbar)(yi - ybar) / (n-1) で計算する。
- 共分散
- 二変量の間の線形依存の程度を示す指標。母集団では Cov(X,Y) = E[(X-μX)(Y-μY)]。
- 母分散
- 母集団の分散。 Var(X) = E[(X-μ)^2]。
- 分散
- データのばらつきを表す指標。母分散は Var(X)、標本分散は s^2。
- 共分散行列
- 複数の変量間の共分散を並べた正方行列。対角が分散、非対角が共分散。
- 標本分散
- データの標本から推定した分散。s^2 = sum (xi - xbar)^2 /(n-1)。
- 標準偏差
- 分散の平方根。データのばらつきを元の単位で直感的に表す。
- 相関
- 二変量の関係の強さと方向を示す指標。-1 から 1 の範囲。
- 相関係数
- 標本相関係数 r。r = Cov(X,Y) / (sX sY)。
- 標本相関
- データの標本データから推定した相関。
- 回帰分析
- 二変量の関係を直線などの関係式で表す統計手法。
- 最小二乗法
- 誤差の二乗和を最小にする推定法。回帰分析の基本法。
- 回帰係数
- 回帰式の傾きを表す係数。例: ŷ = a + bX で b = Cov(X,Y)/Var(X)。
- データの中心化
- 各データから平均を引いて平均を 0 にする操作。
- 中心化
- データの中心化と同じ意味。
- データの正規化
- データを一定の基準に揃える処理。標準化を含むことが多い。
- 標準化
- データを平均 0、分散 1 に変換すること。
- 散布図
- 二変量データの関係を視覚的に示す点の図。
- 多変量正規分布
- 複数変量が同時に従う正規分布。共分散行列で形が決まる。
- 主成分分析
- 共分散行列の固有値・固有ベクトルを用いて分散の大きい方向を見つけ、次元を削減する手法。
- 固有値
- 共分散行列の固有値。データの分散がどの方向で大きいかを示す。
- 自由度
- 不偏推定量を計算する際の自由度。 df = n-1。
- 不偏推定量
- 母集団の値を推定する際、推定量の偏りを避ける性質。
- 不偏共分散推定量
- 標本共分散の不偏推定量として n-1 で割る推定量。
- 半正定値
- 共分散行列は半正定値である。
- 対称性
- 共分散行列は対称である。
- 共分散の公式
- Cov(X,Y) = E[(X-μX)(Y-μY)].
- 線形回帰
- 説明変数 X と目的変数 Y の線形関係を仮定して推定する回帰。
- 線形結合
- 変量の線形結合が分散・共分散の計算に使われる考え方。
標本共分散の関連用語
- 標本共分散
- 2変量の標本データから求める共分散で、一般には Σ (xi - x̄)(yi - ȳ) / (n-1) で計算します。母集団の共分散の不偏推定量として用いられます。
- 母共分散
- 母集団全体のXとYの共分散で、 Cov(X,Y) = E[(X-EX)(Y-EY)] により定義されます。標本では未知で、推定の対象です。
- 共分散行列
- 複数の変数間の共分散を並べた対称行列で、対角成分は各変数の分散、非対角成分が変数間の共分散を表します。
- 協分散
- 共分散の別名で、統計文献の一部で同義語として使われます。
- 標本分散
- 各変数の標本分散で、Sxx や Syy の形で表され、共分散行列の対角要素に対応します。
- 線形性
- 共分散は線形性を持ち、 Cov(aX+b, cY+d) = ac Cov(X,Y) や Cov(X+Z, Y) = Cov(X,Y) + Cov(Z,Y) などが成り立ちます。
- 対称性
- Cov(X,Y) = Cov(Y,X) で、共分散は左右対称の性質を持ちます。
- 相関係数
- 相関係数 r は Cov(X,Y) を σX σY で割った値で、-1 から 1 の範囲を取り、線形関係の強さを示します。
- スピアマン順位相関係数
- データを順位に変換して計算する相関で、線形関係だけでなく単調関係も検出します。
- ケンドール順位相関係数
- 順位の一致度を基にした相関指標で、データの極端な値に左右されにくい特徴があります。
- 単回帰との関係
- 簡単な2変量回帰では回帰係数は β1 = Sxy / Sxx で求まり、切片は β0 = ȳ − β1 x̄ となります。
- 重回帰との関係
- 複数の説明変数を使う場合も共分散の拡張で解釈され、共分散行列の性質を活かして推定します。
- 加重共分散
- データに重み w_i を付けて計算する共分散で、重み付き平均や加重標本分散と組み合わせて使います。
- データの中心化
- 共分散を計算する前にデータの平均を引く中心化を行うのが一般的で、Sxy = Σ x′i y′i /(n-1) となります。
- 欠測データの扱い
- 欠測データがある場合はペアワイズ法や完全ケース法などの方法で処理し、推定に影響します。
- 共分散行列の正定値性
- 共分散行列は対称かつ正定値半正定値で、任意のベクトルの二乗和を非負にします。
- 多変量正規分布
- 2変量以上の正規分布は平均ベクトルと共分散行列 Σ で定義され、Σ がデータの関係性を決めます。
- 主成分分析と共分散行列
- PCA は共分散行列の固有値分解を用いてデータの主成分方向を見つけ、次元削減に活用します。
- 標本共分散の推定方法
- 実データから Sxy を推定する際は分母を n-1 として不偏推定量にするのが一般的です。
- 単位と次元依存性
- 共分散は X の単位と Y の単位の積で表され、スケールを変えると値も変化します。
- 線形変換による影響
- Y = aX + b と変換した場合 Cov(Y, Z) は a Cov(X, Z) によって変化します。
- 独立性と無相関の違い
- Cov(X,Y) = 0 でも必ず独立とは限らず、特に非正規のデータでは依存関係がある場合があります。二変量正規分布の場合は無相関が独立を意味します。
- 用途と応用例
- 回帰分析、分散分析、金融のリスク管理、データの関係性探査などに広く使われます。



















