linearregressionとは?初心者でもわかるlinearregressionの基本と使い方共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
linearregressionとは?初心者でもわかるlinearregressionの基本と使い方共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


はじめに

linearregressionとは、ある値 y とそれに影響を与える要因 x の間にある関係性を直線で表す方法です。データが点としていくつか集まっているとき、その点を最もよく通る一本の直線を見つけることで、未知の値を予測したり、どのような傾向があるのかを理解したりできます。初心者向けに、難しい数式をできるだけ使わず、感覚と実用の両方から解説します。

基本のアイデア

直線は y = a + b × x の形で表されます。ここで a は切片(y軸と直線が交わる点)、b は傾きです。直線が「どのようにデータ点を通るか」を考えるとき、最も大事なのはデータ点と直線の距離の“合計”を小さくすることです。実際にはこの距離を距離の二乗和で測り、最小になるような ab を探します。これを 最小二乗法と言います。

下の例では、横軸に勉強時間、縦軸にテストの点数をとり、データ点からなる散布図にぴったり合う直線を見つけることを目指します。直線が描く予測値は、新しい曜日や新しいデータでも“この関係はこうなるはず”という目安になります。

数式と意味

基本的なモデルは次の通りです。y = a + b x。ここでの意味を分解すると、b は「x が 1 単位増えると y がどれだけ増えるか」を示す傾き、a は「x が 0 のとき y がいくらになるか」という切片です。これにより、x の値を与えれば対応する y の予測値を得られます。

データから係数を決める仕組み

データがあるとき、係数 ab はデータ点と直線の距離を最小にするように決められます。これを数学的には 最小二乗法と呼び、次のような式で評価します。誤差項を e_i とすると、各データ点 i に対して e_i = y_i - (a + b × x_i) です。全データの誤差の二乗和を最小にする点が、係数 a と b の候補となります。直感的には、データ点をできるだけ”直線に近づける”作業です。

実務での使い方のイメージ

実務では、まずデータを集め、説明変数(x)と目的変数(y)を用意します。次にモデルを「学習」させ、係数 a と b を算出します。学習が完了したら、新しい x の値を入れて y の予測値を算出します。予測の精度を評価する指標として 平均二乗誤差(MSE)や決定係数 R^2 などを使います。Excelを使えば直感的に近似直線を描くことができますし、Pythonscikit-learn などのライブラリを使えば、データの前処理・学習・評価を一気通貫で行えます。

以下は、勉強時間とテストの点数のサンプルデータを用意した簡易データ表と、予測のイメージです。

Hours studiedScore
145
250
355
465
570

この表のデータ点を近づけるように直線を引くと、y に対する x の影響が見えます。実際にはこのようなデータに対して最小二乗法を適用し、係数 a と b を計算します。計算結果が出たら、新しい勉強時間 に対して 予測スコア を出すことができます。

注意点と限界

linearregressionは「線形の関係」を前提にしているため、データが非線形のときはうまく予測できません。例えば、時間が増えると点数が上がるが、ある点を過ぎると頭打ちになるような場合には別のモデルが必要です。また、外れ値の影響を受けやすい点にも注意が必要です。データが偏っていたり、ノイズが多すぎると、係数が不安定になり予測が信頼できなくなることがあります。

このような理由から、線形回帰を使う前にはデータの散布図を確認し、関係性が線形に見えるかどうか、外れ値がないか、データ量が十分かをチェックしましょう。

まとめ

linearregressionは、データの関係を直線で近似して予測する基本的な手法です。y = a + b x というシンプルな式で、x が増えると y がどう変わるかを知ることができます。最小二乗法で係数を決め、予測値の精度を評価します。実務ではExcelやPythonなどのツールを使い、データの傾向を把握したり、将来の予測を立てたりします。学習を進めると、より複雑なモデルへと発展させる道も見えてくるでしょう。


linearregressionの同意語

線形回帰
説明変数と目的変数の間に線形関係があると仮定し、データを最小二乗法で近似する回帰手法。
直線回帰
線形回帰と同義で、目的変数を説明変数の直線で近づける回帰手法を指す表現。
単回帰
説明変数が1つのときの線形回帰。y = β0 + β1 x の形で表す基本形。
回帰分析
説明変数が複数ある場合の線形回帰を指す分析手法。係数を複数の説明変数に対して推定する。
多重回帰分析
重回帰分析と同義で、複数の説明変数を持つ線形回帰の分析を指す表現。
線形回帰モデル
線形回帰を用いてデータを説明する数式モデル。係数を推定して予測する枠組み。
OLS回帰
Ordinary Least Squares(最小二乗法)を用いた回帰推定。線形回帰の標準的な実装名として使われる。
最小二乗回帰
最小二乗法を用いて回帰係数を推定する線形回帰の一種。
線形回帰式
回帰の公式を指す表現。y = β0 + β1 x1 + … の形で表される予測式。
回帰方程式
回帰分析の結果得られる数式。目的変数と説明変数の関係を示す式。

linearregressionの対義語・反対語

非線形回帰
線形関係ではなく、データの関係が曲線的であると仮定して近似する回帰。二次曲線・指数関数など、直線以外の形でデータを説明する。
非線形モデル
データの関係性が非線形であると仮定するモデル一般。線形回帰の対義語として使われる概念。
多項式回帰
入力を多項式で変換して線形回帰を適用する手法。実質的には線形回帰の拡張だが、非線形な関係を捉えやすくする。
ロジスティック回帰
出力を確率として扱い、分類問題を解く回帰の一種。線形回帰とは目的が異なるが、対比として挙げられることが多い。
決定木回帰
データを特徴量の条件で分割して予測値を算出する、非線形で区分的な回帰手法。
ランダムフォレスト回帰
多数の決定木を組み合わせて予測する、非線形で強力な回帰アルゴリズム。
勾配ブースティング回帰
弱い回帰モデルを順次追加して予測精度を高める、非線形なアンサンブル回帰。
分位回帰
条件付き分位数を予測する回帰。平均値ではなく分位点を推定する点が特徴。
非パラメトリック回帰
事前に関数形を仮定せずデータから形を学ぶ回帰。非線形性を柔軟に捉えることが多い。
定数モデル
傾きを0とするモデル。データの平均だけを予測する、最もシンプルな回帰モデルの一種。
無相関・トレンドなしモデル
説明変数と目的変数の間に関係がないと仮定するモデル。線形回帰の前提と異なる基準。
指数回帰
データの関係が指数関数的に変化すると仮定する回帰。直線にはない曲線を扱う。
対数回帰
出力と入力の対数関係を仮定する回帰。直線ではなく対数スケールでの関係を近似する。

linearregressionの共起語

線形回帰
従属変数と説明変数の間の線形関係を前提とする回帰モデル全体を指す基本用語。
最小二乗法
データ点と予測直線の差の二乗和を最小にするよう係数を決定する推定法。
回帰係数
各説明変数が従属変数に与える影響の大きさを表すパラメータ。
切片
予測直線がy軸と交わる点、すなわち定数項を表す係数。
傾き
説明変数が1単位増えたとき従属変数がどれだけ増減するかを示す係数のこと。
説明変数
予測に用いる入力特徴。独立変数とも呼ばれます。
独立変数
他の変数に依存しないと仮定される入力特徴。
従属変数
予測対象となる出力変数。
目的変数
予測する対象の別名で従属変数と同義です。
データセット
訓練データ・検証データ・テストデータを含むデータの集合。
訓練データ
パラメータを推定するために使用するデータ。
検証データ
モデルのハイパーパラメータを調整するために使うデータ。
テストデータ
最終的なモデル評価に用いる未知データの集合。
決定係数
モデルが従属変数の分散のどれだけを説明できるかを示す指標(R二乗値)。
調整済み決定係数
自由度を考慮して過剰適合を抑えたR二乗値。
MSE
予測誤差の二乗の平均。小さいほど良い適合を示します。
RMSE
MSEの平方根、単位が元のデータと同じになる指標。
MAE
予測誤差の絶対値の平均、外れ値の影響を受けにくい指標。
残差
観測値とモデル予測値の差。モデルの誤差の分布を表します。
残差プロット
残差と予測値の関係を可視化して仮定の妥当性を確認する図。
多重共線性
説明変数同士が強く相関して係数推定を不安定にする現象。
正規性
残差が正規分布に従うときに成り立つ仮定のひとつ。
等分散性
残差の分散が説明変数の値に関わらず一定であること。
自己相関なし
残差の値同士が互いに独立であることの仮定。
前提条件
線形回帰を適用する際の基本的な仮定群。
正規方程式
OLSの解を求める解析的な解法のひとつ。
勾配降下法
場合によってはOLSの代わりに使われる最適化アルゴリズム
最適化アルゴリズム
パラメータを最適化する計算手法の総称。
グラフィカルチェック
データや残差を図で確認する検証作業。
散布図
説明変数と従属変数の関係を視覚化する基本図。
正則化
過学習を抑制するために係数の大きさを制限する手法。
Ridge回帰
L2正則化を適用した回帰。係数の振る舞いを滑らかにします。
Lasso回帰
L1正則化を適用した回帰。不要な変数を0にすることが多い。
Elastic Net
L1とL2正則化を組み合わせた回帰。
ポリノミアル回帰
特徴量を多項式に拡張して非線形関係を近似する手法。
ステップワイズ回帰
変数の追加・削除を繰り返して特徴量を選択する方法。
クロスバリデーション
データを複数の折りたたみで評価するモデル評価法。
K分割交差検証
データをK個のfoldに分けて平均評価する一般的なCV手法。
標準化
特徴量を平均0、分散1にスケーリングする前処理。
スケーリング
特徴量のスケールを揃える前処理全般の総称。
正則化強度
Ridge/Lassoの罰則の強さを決めるハイパーパラメータ。
学習曲線
訓練データ量とモデル性能の関係を示す曲線。
特徴量選択
モデルの精度を保ちつつ不要な変数を除く工程。
学習率
勾配降下法でのパラメータ更新量。

linearregressionの関連用語

線形回帰
入力された説明変数と目的変数の間に直線の関係を仮定して予測する基本的な回帰モデルです。
目的変数
回帰で予測したい変数。一般にYと表記されます。
説明変数
予測に用いる入力データ。一般にXと表記されます。
切片
回帰式のY軸と交差する定数項。モデルの基準レベルを表します。
回帰係数
各説明変数の影響度を表す係数。傾きや重みとして機能します。
最小二乗法
観測値とモデルの残差の二乗和を最小にする推定法でOLSの核心となる手法です。
正規方程式
OLSの閉じた解を得るための方程式。設計行列Xを用いて解を求めます。
単回帰
説明変数が1つの線形回帰。シンプルなケースです。
重回帰
説明変数が複数ある線形回帰。複雑なデータに対応します。
設計行列
説明変数のデータをまとめた行列。Xとして表現されることが多いです。
回帰式
予測値を表す式。例: ŷ = β0 + β1x1 + …
残差
観測値と予測値の差。e = y − ŷで表されます。
残差平方和
残差の二乗を全データで足し合わせた値(RSS)。
決定係数
モデルがデータの分散をどれだけ説明するかを示す指標、主にR²を指します。
調整済み決定係数
説明変数の数を考慮して過適合を抑えたR²の指標です。
F検定
モデル全体の有意性を検定する統計量です。
p値
帰無仮説が正しいときに観測された統計量以上の値が出る確率。係数の有意性判断に使います。
標準誤差
推定値のばらつきの標準偏差。係数の推定精度を示します。
信頼区間
係数の真の値が入ると推定される区間。例: 95%信頼区間。
予測区間
新しいデータ点の予測値が入る区間。予測の不確実性を示します。
多重共線性
説明変数同士が強く相関して推定が不安定になる状態です。
分散膨張因子
多重共線性の程度を測る指標。VIFが高いほど問題が大きいです。
t値
係数の推定値を標準誤差で割った統計量。係数の有意性を判定します。
t検定
係数が0でないかを検定する統計的検定です。
正規性
誤差項が正規分布に従うという仮定です。
独立性
誤差項が互いに独立に分布するという仮定です。
等分散性
誤差の分散が説明変数の値に依らず一定であることの仮定です。
異方分散性
誤差の分散が説明変数の値によって変化する現象です。
共分散
係数推定値間の共分散を示す量です。
共分散行列
係数推定値の共分散を格納した行列です。
AIC
赤池情報量規準。モデルの適合度と複雑さのバランスを評価します。
BIC
ベイズ情報量規準。サンプル数が大きいと複雑性に厳しくなる指標です。
RMSE
予測誤差の平方根の平均。直感的に誤差の大きさを表します。
MSE
誤差の二乗の平均。誤差の大きさを表す指標です。
MAE
誤差の絶対値の平均。外れ値の影響を受けにくい指標です。
バイアス分散のトレードオフ
予測誤差を抑える際にバイアスと分散のバランスを考える考え方です。
リッジ回帰
L2正則化を加えた回帰。係数を小さくして過学習を抑えます。
ラッソ回帰
L1正則化を加えた回帰。不要な係数を0にすることがあります。
Elastic Net
L1とL2の組み合わせによる正則化手法です。
ダミー変数
カテゴリ変数を0/1で表すよう変換する前処理手法です。
交互作用項
2つ以上の説明変数の影響の相互作用を表す項です。
多項式回帰
非線形関係を表現するため特徴量を多項式で拡張します。
予測
未知データの目的変数を推定することです。
学習データ
モデルの訓練に使うデータです。
テストデータ
モデルの評価に使うデータです。
クロスバリデーション
データを複数分割して安定した評価を得る手法です。
アンダーフィット
モデルがデータの構造を十分に捉えられていない状態です。
過学習
訓練データに過剰に適合して新データで性能が低下する現象です。
スケーリング
特徴量の範囲を揃える前処理です。
標準化
特徴量を平均0、分散1に変換するスケーリング方法です。
中心化
特徴量から平均を引く前処理です。
ロバスト回帰
外れ値に対して頑健な推定を行う回帰手法です。
外れ値
他のデータ点と著しく異なるデータ点です。
予測値
モデルが出す推定値。ŷと表されることが多いです。
正規方程式の解法
設計行列を用いて係数を求める具体的な計算手順です。
学習曲線
訓練データ量とモデル性能の関係を示すグラフです。
予測値 ŷ
回帰モデルの予測結果です。
設計行列Xの標準化
Xの各列を標準化して数値安定性を高める前処理です。

linearregressionのおすすめ参考サイト


学問の人気記事

トルクの単位・とは?初心者向けに徹底解説!なぜ単位が違うのかまで分かる共起語・同意語・対義語も併せて解説!
1936viws
引用・参考文献とは?初心者でもわかる使い方とポイント解説共起語・同意語・対義語も併せて解説!
707viws
ensureとは?初心者にもわかる意味と使い方を徹底解説共起語・同意語・対義語も併せて解説!
661viws
座標計算・とは?初心者向けガイドで完全マスター共起語・同意語・対義語も併せて解説!
631viws
示差走査熱量測定とは?初心者向けガイドで学ぶ基本と実験のポイント共起語・同意語・対義語も併せて解説!
516viws
no・とは?初心者にもわかる意味と使い方ガイド共起語・同意語・対義語も併せて解説!
501viws
絶縁抵抗値とは?初心者でも分かる測定の基本と安全のコツ共起語・同意語・対義語も併せて解説!
497viws
ナイロン樹脂とは?初心者にもわかる基本と用途ガイド共起語・同意語・対義語も併せて解説!
462viws
welchのt検定とは?不等分散のデータを比較する統計手法をやさしく解説共起語・同意語・対義語も併せて解説!
421viws
k型熱電対とは?初心者にも分かる基礎解説と活用事例共起語・同意語・対義語も併せて解説!
408viws
summarize・とは?初心者向け解説と使い方のコツ共起語・同意語・対義語も併せて解説!
390viws
気圧の単位とは?中学生にもわかるPa・atm・bar・Torrの違いと換算ガイド共起語・同意語・対義語も併せて解説!
385viws
論述問題・とは?初心者にも分かる解説と解き方のコツ共起語・同意語・対義語も併せて解説!
379viws
穴加工・とは?初心者が知っておく基本と現場での活用ポイント共起語・同意語・対義語も併せて解説!
378viws
z変換・とは?初心者が知っておくべき基礎と日常への応用共起語・同意語・対義語も併せて解説!
335viws
3/4・とは?分数の基本を分かりやすく解く完全ガイド共起語・同意語・対義語も併せて解説!
334viws
100g・とは?初心者が今すぐ知っておきたい基本と使い方共起語・同意語・対義語も併せて解説!
332viws
endnoteとは?研究ノートを整理する基本ツールの解説共起語・同意語・対義語も併せて解説!
328viws
洗浄バリデーションとは?初心者が押さえる基本と実務のポイント共起語・同意語・対義語も併せて解説!
324viws
pastとは?初心者向けガイド:意味・使い方・例文を徹底解説共起語・同意語・対義語も併せて解説!
284viws

新着記事

学問の関連記事