logisticregressionとは?初心者向けにやさしく解説共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
logisticregressionとは?初心者向けにやさしく解説共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


logisticregressionとは何か

logisticregressionは機械学習の分類アルゴリズムの一つです。データの特徴をもとにある事象が起きる確率を出し、それを基準に0か1かを判断します。医療での病気の有無やメールの迷惑判定など、二つのクラスに分ける場面で活躍します。

仕組みをやさしく理解する

まず前提として線形回帰と混同されやすいですが、logisticregressionの出力は0から1の範囲の確率になります。特徴ベクトル x と重み w を用いて z = w^T x + b を作り、シグモイド関数と呼ばれる sigmoid(z) を通して確率を求めます。確率が0.5より大きい場合はクラス1、そうでなければクラス0に分類します。

例え話でイメージをつかむ

たとえばテストの点数と睡眠時間から合格か不合格かを予測するとします。得点が高く睡眠が十分なら合格の確率が高くなるという直感を数式で表すのが logisticregression です。重みは学習によって調整され、データが多いほど良い予測ができるようになります。

モデルの式とポイント

式の要点だけ押さえましょう。出力は確率0から1の間で、学習の目的は正しいクラスになる確率を最大化することです。実務では w と b をデータから見つけるために最大尤度推定や正則化を使います。

<th>特徴
出力が0から1の確率になる
目的分類の確率を予測する
学習方法最大尤度推定や正則化を使う
応用例メールの迷惑判定や疾病リスクの予測

よくある誤解と注意点

線形回帰と混同しがちだが出力範囲が異なる。ロジスティック回帰は確率を扱うため0から1の範囲に収まるよう変換する。データが線形に分けられない場合には過学習や特徴量の選択が重要になる。正則化(L1やL2)を使うとモデルが過剰に複雑になるのを防げる。

実務での使い方のヒント

データが二値のクラス予測を目的とする場合におすすめ。前処理として欠損値の扱いやカテゴリ変数のエンコーディングが大切。評価指標としては accuracy のほか ROC曲線下面積(AUC)や混同行列が役立つ。データを訓練データと検証データに分け、交差検証で安定性を確認しましょう。

まとめ

logisticregressionは二値分類の基本的なアルゴリズムであり、確率を出力する点が大きな特徴です。初心者にはシンプルさと解釈のしやすさが魅力で、データサイエンスの第一歩として多くの実務に応用されています。


logisticregressionの同意語

ロジスティック回帰
二値の結果を確率として予測する統計モデル。入力特徴量の線形結合にシグモイド関数を適用して、0〜1の確率を出力します。主に分類問題に用いられます。
ロジスティック回帰分析
ロジスティック回帰を用いてデータを分析する手法。回帰係数の推定や有意性の解釈を行い、予測モデルを構築します。
ロジット回帰
ロジットリンクを用いて確率を説明する回帰モデル。ロジスティック回帰と同義で使われることが多い表現です。
ロジット回帰分析
ロジット回帰を用いた分析手法のひとつ。二値データの予測に適用します。
ロジットモデル
logitモデルとも呼ばれ、確率をオッズ比の形で説明する回帰モデルの総称です。
ロジスティックモデル
確率をシグモイド関数で表す回帰モデルの総称。主に二値分類に用いられます。
ロジスティック回帰モデル
ロジスティック回帰を実装した具体的なモデル。特徴量の線形結合を介して0〜1の確率を出力します。
ロジスティック分類器
機械学習における分類器の一種。出力確率に閾値を設けてクラスを予測します。
バイナリーロジスティック回帰
目的変数が2値(0/1)のロジスティック回帰。最も一般的な形式です。
二項ロジスティック回帰
同じく二値データを対象とするロジスティック回帰。英語の

logisticregressionの対義語・反対語

線形回帰
連続値を予測する回帰モデルで、出力は実数。分類を前提としないため、ロジスティック回帰の分類タスクの対極として挙げられることが多い。
決定木
データを条件で分岐して予測を行うモデル。解釈が直感的で、非線形な関係も扱える点がロジスティック回帰と異なる。
ランダムフォレスト
複数の決定木を組み合わせたアンサンブル学習。過学習を抑えつつ高い精度を出せるが、単一のロジスティック回帰よりは複雑。
勾配ブースティング
弱い予測器を順次追加して高精度にするアンサンブル法。非線形な関係を捉えやすく、ロジスティック回帰よりも強力なモデルになりやすい。
SVM(サポートベクターマシン)
データを高次元空間で分離・回帰するモデル。線形・非線形カーネルを選べ、ロジスティック回帰とは別の最適化目的を持つ分類・回帰法。
k-近傍法(k-NN)
新しい点を、近傍のサンプルのラベルで決定するシンプルな非パラメトリック学習法。学習は軽いが推定時の計算量が多く、頑健性に課題が出やすい。
ニューラルネットワーク(多層パーセプトロンなど)
層状のニューロンを使い非線形関係を学習する高度な予測モデル。非常に柔軟だが、設計・調整・計算資源が多くなる。

logisticregressionの共起語

二値分類
データを2つのクラスに分ける予測タスクのこと。ロジスティック回帰はこの二値分類を行う代表的な手法です。
シグモイド関数
入力を0から1の範囲に圧縮するS字型の関数。ロジスティック回帰ではこの関数を使って確率を出します。
ロジット
シグモイド関数の入力となる対数オッズ。線形結合と対数オッズの関係を表す重要な考え方です。
対数オッズ
あるクラスが起こる確率と別のクラスが起こる確率の比の対数。ロジスティック回帰の基盤となる指標です。
確率予測
新しいデータが属するクラスの確率値。0〜1の範囲で出力されます。
回帰係数
各特徴量が目的変数に与える影響度を示す値。正の値はクラス1へ、負の値はクラス0へ寄与します。
切片
特徴量が全て0のときの基準となる値。予測の土台となる定数項です。
正則化
過学習を抑えるために係数の大きさを制限する工夫。モデルの安定性を高めます。
L1正則化
係数の絶対値の総和を抑える正則化。特徴量を自動で選択する効果があり得ます。
L2正則化
係数の二乗和を抑える正則化。係数を滑らかにして過剰な依存を防ぎます。
ElasticNet正則化
L1とL2を組み合わせた正則化。特徴量選択と安定性の両方を狙います。
ロジスティック損失
学習時の損失関数。予測確率と実際のクラスとの乖離を対数尤度の形で測定します。
対数尤度
観測データが起こる確率の対数。最大化することで最適なモデルを探します。
最大尤度推定
観測データが起こる確率を最大化するパラメータを求める統計的推定法。
GLM(一般化線形モデル)
ロジスティック回帰はGLMの一種。さまざまな分布とリンク関数を扱います。
特徴量スケーリング
各特徴量の尺度をそろえる処理。学習の収束を早め、安定性を高めます。
標準化
特徴量を平均0、分散1に揃える代表的なスケーリング手法。
正規化
特徴量を一定の範囲に収めるスケーリング。正則化と組み合わせると効果的です。
多重共線性
特徴量同士が強く相関している状態。係数が不安定になりやすく注意が必要です。
データ前処理
欠損値処理、エンコーディング、スケーリングなど、学習前の準備全般のこと。
ワンホットエンコーディング
カテゴリ変数を0/1のベクトルに変換する手法。ロジスティック回帰でよく使われます。
scikit-learn
Pythonで機械学習を実装する代表的なライブラリ。ロジスティック回帰も含まれています。
statsmodels
Pythonの統計モデリングライブラリ。推定値の解釈性が高く、統計的検定が充実しています。
Python
機械学習の実装に広く使われるプログラミング言語。初心者にも人気です。
R
統計解析に強いプログラミング言語。ロジスティック回帰の実装と解釈が直感的です。
モデル評価
作成したモデルの性能を測る指標や手法の総称。
混同行列
実際のクラスと予測クラスの対応を表す表。正解率や適合率を計算する基礎です。
精度(Accuracy)
全データのうち正しく分類できた割合。直感的な性能指標として用いられます。
適合率(Precision)
予測がクラス1であるとき、そのうち実際にクラス1だった割合。
再現率(Recall)
実際にクラス1だったデータのうち、正しくクラス1と予測できた割合。
F1スコア
適合率と再現率の調和平均。バランスの指標として使われます。
ROC曲線
真陽性率と偽陽性率の関係を閾値を変えながら描く曲線。分類の性能を視覚化します。
AUC
ROC曲線の下の面積。値が1に近いほど良い分類性能の指標です。
閾値
確率をクラス分けの境界として用いる基準値。閾値を変えると予測クラスが変わります。
クラス不均衡
データ中のクラス数が偏っている状態。評価指標の選択や再サンプリングが重要になります。
クロスバリデーション
データを複数の折りに分けて評価する手法。汎化性能の安定な推定に役立ちます。
トレーニングデータ
モデルを学習させるためのデータ。
テストデータ
モデルの汎化性能を評価するためのデータ。
ソルバー
最適化アルゴリズムの選択肢。liblinear、lbfgs、saga などがロジスティック回帰で使われます。
最大反復回数
最適化が収束するまでの試行回数の上限設定。
Cパラメータ
正則化の強さを決めるハイパーパラメータ。値が小さいほど正則化が強くなります。
係数の符号
各特徴量がクラス1へ与える影響の向きを示します(正の符号は正の影響、負の符号は負の影響)。
決定境界
データを二つのクラスに分ける直線または境界線。ロジスティック回帰は線形の決定境界を描きます。
オッズ比
特徴量の変化に伴うクラス1になるオッズの変化量を示す指標。
学習曲線
訓練データ量とモデル性能の関係を示すグラフ。過学習の兆候を判断する材料になります。
データ分割
データを訓練用と検証用・テスト用に分ける作業。汎化性能を評価する前提です。

logisticregressionの関連用語

ロジスティック回帰
2値の結果を予測する分類モデル。特徴量の線形結合をシグモイド関数で確率に変換します。
シグモイド関数
S字型の関数で 0 から 1 の確率を返します。p = 1 / (1 + exp(-z)) の形で表現されます。
ロジット関数
オッズの自然対数をとる変換。log(p / (1 - p)) を表し、線形予測子と対応します。
ロジットリンク
GLM で使われるリンク関数の一つで、確率と線形予測子をログオッズで結びます。
線形予測子
β0 + β1x1 + … + βk xk の形で特徴量の線形結合を表します。
最尤推定
データが観測される確率を最大化するように係数を決定する推定法。
対数尤度
尤度関数の自然対数。計算の安定化と数式処理の都合で用います。
尤度関数
観測データが得られる確率の積。パラメータ推定の目的関数となります。
ログ損失
予測確率と真のクラスの差を対数スケールで表す損失関数。最小化して学習します。
クロスエントロピー
2値分類の標準的な損失関数。平均した対数損失の総称。
ロジスティック損失
ロジスティック回帰で用いられるクロスエントロピー損失の別称。
確率出力
サンプルが正例である確率 p を出力します。0〜1 の値。
オッズ
正例が起こる確率と起こらない確率の比。p / (1 - p) で計算します。
オッズ比
特徴量の1単位変化でオッズが何倍変化するかを示す指標。e^β によって解釈します。
回帰係数
各特徴量の影響度を表すパラメータ β(β0, β1, …, βk)。
βの解釈 / オッズ比解釈
e^{βj} は x_j が1増えるときのオッズ比の変化量を示します。
正則化
過学習を抑えるため、モデルの係数に罰則を課す手法。
L1正則化
係数を零に近づけることで特徴量選択も促進します。
L2正則化
係数を小さく抑え、滑らかなモデルにします。
Elastic Net
L1とL2を組み合わせた正則化。
正則化パラメータ
罰則の強さを決めるハイパーパラメータ。
Cパラメータ
正則化の強さの逆数。小さいほど強い正則化をします。
λパラメータ
L2 正則化の罰則項の係数。正則化強度に影響します。
最適化アルゴリズム
係数を求める計算手順の総称。
勾配降下法
勾配を用いてパラメータを少しずつ更新して最適化。
確率的勾配降下法
データを1サンプルずつ使って更新する高速な最適化法。
ニュートン法 / IRLS
2階微分を使って収束を速める最適化手法。ロジスティック回帰ではIRLSが利用されることがあります。
データスケーリング
特徴量のスケールを揃える前処理。
標準化
平均0、分散1になるようにデータを変換します。
ダミー変数
カテゴリ変数を 0/1 の列に展開して表現する方法。
ワンホットエンコーディング
カテゴリを複数のダミー変数に展開するエンコーディング手法。
多クラスロジスティック回帰
3クラス以上を扱う拡張。出力は複数クラスの確率になります。
ソフトマックス回帰
多クラスロジスティック回帰の別名。各クラスの確率を出力します。
OvR(One-vs-Rest)
各クラスごとに2値分類モデルを作る多クラス戦略。
multinomialロジスティック回帰
クラス間で直接多項分布を扱う実装。
代替モデル
ロジスティック回帰の代替としてLDAやSVMなどがあります。
プロビット回帰
別のリンク関数を用いた分類モデル。
GLM
Generalized Linear Model の略。ロジスティック回帰は GLM の一種です。
一般化線形モデル
GLM の日本語表現。
リンク関数
確率と線形予測子の関係を定義する関数。
確率閾値
予測確率をクラスに割り当てる境界値。通常は0.5。
ROC曲線
偽陽性率と真陽性率の関係を描く曲線。
AUC
曲線下の面積。識別能力の指標。
ROC-AUC
ROC曲線の下の面積を用いた性能指標。
PR曲線
Precision-Recall の関係を描く曲線。
PR-AUC
PR曲線の下の面積。
精度
正解率。予測が正解である比率。
適合率
Precision。正と予測したうち実際に正である割合。
再現率
Recall / 感度。実際の正例のうち正しく検出された割合。
F1スコア
適合率と再現率の調和平均による指標。
混同行列
実際のクラスと予測クラスの組み合わせを整理した表。
Brierスコア
予測確率の平方誤差を用いた分布適合度の指標。
キャリブレーション / 校正
予測確率と実際の頻度がどれだけ一致しているかの程度。
キャリブレーション曲線
予測確率と実測頻度を比較するための図。
バランス不均衡
クラスの出現比が偏っている状態。
クラス重み
不均衡データを補正するための重み付け。
データ前処理
欠損値処理、エンコーディング、スケーリングなど前処理全般。
欠損値処理
データ中の欠損をどう扱うかの方針。
多重共線性
特徴量間の強い相関によりモデル解釈が難しくなる状況。
VIF
Variance Inflation Factor、多重共線性の指標。
係数の有意性
統計的に β が0でないかを検定する考え方。
p値
帰無仮説が正しいときに観測値以上の差が生じる確率。
標準誤差
係数推定の不確実性を表す指標。
学習データ分割
訓練データと検証データに分割して評価する手法。
クロスバリデーション
複数の分割を用いてモデルを評価する方法。
IID
独立同分布の仮定。統計モデルの前提の一つ。
Bernoulli分布
2値の結果を扱う確率分布
Binomial分布
成功回数の分布。ロジスティック回帰の背景となる分布の一つ。
推定の収束性
最適解へ収束する性質。
学習曲線
データサイズとモデル性能の関係を示す曲線。

logisticregressionのおすすめ参考サイト


学問の人気記事

トルクの単位・とは?初心者向けに徹底解説!なぜ単位が違うのかまで分かる共起語・同意語・対義語も併せて解説!
2146viws
引用・参考文献とは?初心者でもわかる使い方とポイント解説共起語・同意語・対義語も併せて解説!
842viws
ensureとは?初心者にもわかる意味と使い方を徹底解説共起語・同意語・対義語も併せて解説!
715viws
座標計算・とは?初心者向けガイドで完全マスター共起語・同意語・対義語も併せて解説!
689viws
絶縁抵抗値とは?初心者でも分かる測定の基本と安全のコツ共起語・同意語・対義語も併せて解説!
583viws
示差走査熱量測定とは?初心者向けガイドで学ぶ基本と実験のポイント共起語・同意語・対義語も併せて解説!
564viws
no・とは?初心者にもわかる意味と使い方ガイド共起語・同意語・対義語も併せて解説!
560viws
k型熱電対とは?初心者にも分かる基礎解説と活用事例共起語・同意語・対義語も併せて解説!
532viws
ナイロン樹脂とは?初心者にもわかる基本と用途ガイド共起語・同意語・対義語も併せて解説!
523viws
大辞林とは?初心者にもわかる日本語辞典の使い方と特徴共起語・同意語・対義語も併せて解説!
505viws
welchのt検定とは?不等分散のデータを比較する統計手法をやさしく解説共起語・同意語・対義語も併せて解説!
481viws
論述問題・とは?初心者にも分かる解説と解き方のコツ共起語・同意語・対義語も併せて解説!
465viws
summarize・とは?初心者向け解説と使い方のコツ共起語・同意語・対義語も併せて解説!
454viws
気圧の単位とは?中学生にもわかるPa・atm・bar・Torrの違いと換算ガイド共起語・同意語・対義語も併せて解説!
447viws
励磁回路とは?初心者にもわかる基礎解説と仕組みの全体像共起語・同意語・対義語も併せて解説!
447viws
穴加工・とは?初心者が知っておく基本と現場での活用ポイント共起語・同意語・対義語も併せて解説!
430viws
洗浄バリデーションとは?初心者が押さえる基本と実務のポイント共起語・同意語・対義語も併せて解説!
410viws
摘要とは?初心者にも分かる意味と書き方ガイド共起語・同意語・対義語も併せて解説!
409viws
r134aとは?初心者向けガイド|エアコン冷媒の基本をやさしく解説共起語・同意語・対義語も併せて解説!
399viws
z変換・とは?初心者が知っておくべき基礎と日常への応用共起語・同意語・対義語も併せて解説!
376viws

新着記事

学問の関連記事