linearregressionとは？初心者でもわかるlinearregressionの基本と使い方共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

はじめに

linearregressionとは、ある値 y とそれに影響を与える要因 x の間にある関係性を直線で表す方法です。データが点としていくつか集まっているとき、その点を最もよく通る一本の直線を見つけることで、未知の値を予測したり、どのような傾向があるのかを理解したりできます。初心者向けに、難しい数式をできるだけ使わず、感覚と実用の両方から解説します。

基本のアイデア

直線は y = a + b × x の形で表されます。ここで a は切片（y軸と直線が交わる点）、b は傾きです。直線が「どのようにデータ点を通るか」を考えるとき、最も大事なのはデータ点と直線の距離の“合計”を小さくすることです。実際にはこの距離を距離の二乗和で測り、最小になるような a と b を探します。これを 最小二乗法と言います。

下の例では、横軸に勉強時間、縦軸にテストの点数をとり、データ点からなる散布図にぴったり合う直線を見つけることを目指します。直線が描く予測値は、新しい曜日や新しいデータでも“この関係はこうなるはず”という目安になります。

数式と意味

基本的なモデルは次の通りです。y = a + b x。ここでの意味を分解すると、b は「x が 1 単位増えると y がどれだけ増えるか」を示す傾き、a は「x が 0 のとき y がいくらになるか」という切片です。これにより、x の値を与えれば対応する y の予測値を得られます。

データから係数を決める仕組み

データがあるとき、係数 a と b はデータ点と直線の距離を最小にするように決められます。これを数学的には 最小二乗法と呼び、次のような式で評価します。誤差項を e_i とすると、各データ点 i に対して e_i = y_i - (a + b × x_i) です。全データの誤差の二乗和を最小にする点が、係数 a と b の候補となります。直感的には、データ点をできるだけ”直線に近づける”作業です。

実務での使い方のイメージ

実務では、まずデータを集め、説明変数（x）と目的変数（y）を用意します。次にモデルを「学習」させ、係数 a と b を算出します。学習が完了したら、新しい x の値を入れて y の予測値を算出します。予測の精度を評価する指標として 平均二乗誤差（MSE）や決定係数 R^2 などを使います。Excelを使えば直感的に近似直線を描くことができますし、Python の scikit-learn などのライブラリを使えば、データの前処理・学習・評価を一気通貫で行えます。

以下は、勉強時間とテストの点数のサンプルデータを用意した簡易データ表と、予測のイメージです。

Hours studied	Score
1	45
2	50
3	55
4	65
5	70

この表のデータ点を近づけるように直線を引くと、y に対する x の影響が見えます。実際にはこのようなデータに対して最小二乗法を適用し、係数 a と b を計算します。計算結果が出たら、新しい勉強時間 に対して 予測スコア を出すことができます。

注意点と限界

linearregressionは「線形の関係」を前提にしているため、データが非線形のときはうまく予測できません。例えば、時間が増えると点数が上がるが、ある点を過ぎると頭打ちになるような場合には別のモデルが必要です。また、外れ値の影響を受けやすい点にも注意が必要です。データが偏っていたり、ノイズが多すぎると、係数が不安定になり予測が信頼できなくなることがあります。

このような理由から、線形回帰を使う前にはデータの散布図を確認し、関係性が線形に見えるかどうか、外れ値がないか、データ量が十分かをチェックしましょう。

まとめ

linearregressionは、データの関係を直線で近似して予測する基本的な手法です。y = a + b x というシンプルな式で、x が増えると y がどう変わるかを知ることができます。最小二乗法で係数を決め、予測値の精度を評価します。実務ではExcelやPythonなどのツールを使い、データの傾向を把握したり、将来の予測を立てたりします。学習を進めると、より複雑なモデルへと発展させる道も見えてくるでしょう。