ソフトマックスとは？初心者のための基礎と使い方をやさしく解説共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

ソフトマックスとは何か

ソフトマックスは、機械学習でよく使われる「確率を出す関数」です。多くのクラスがある分類問題では、モデルが出したスコアを“確率”として解釈できるように変換します。つまり、ソフトマックスを使うと、それぞれのクラスが正解になる確率を表すことができ、最終的には全クラスの確率を足すと1になる性質を持っています。

日常の例えで考えると、スポーツの試合で複数の結果を予想する場面を想像してください。各結果に対して“当たりそうな確率”を割り当て、その確率を足すと必ず1になるように調整されます。ソフトマックスは、この考え方を数式で実現しているのです。

ソフトマックスのしくみ

ソフトマックスは、ニューラルネットワークの最後の出力層で使われることが多いです。入力として各クラスに対応する「スコア」や「ロジット」と呼ばれる値 z_i を受け取り、以下の式で各クラスの確率を計算します。ソフトマックス_i = exp(z_i) / sum_j exp(z_j)。この計算のポイントは、z_i が大きいほど exp(z_i) の値も大きくなり、対応するクラスの確率が高くなることです。

特徴として、次の性質があります。全クラスの確率の総和は必ず1になる、各確率は0以上になる、その結果としてモデルは“最も確率の高いクラス”を予測として返しやすくなります。

式と具体的な計算のイメージ

式の理解を深めるために、簡単な例を見てみましょう。想定するクラスは3つ、zの値はそれぞれ 2.0、1.0、0.1 だとします。まず exp(z) を計算し、総和をとってから各クラスの確率を求めます。

要素	z値	exp(z)	ソフトマックス
1	2.0	7.389	0.659
2	1.0	2.718	0.242
3	0.1	1.105	0.099
合計		11.212	1.000

この例では、各クラスの確率は約 0.659、0.242、0.099 となり、合計は1.0 になります。最も高い確率を持つクラスが、モデルの予測クラスとして選ばれます。

実装時のポイント

ソフトマックスを実装する際には、数値の安定性に注意が必要です。指数関数は大きな値を扱うと非常に大きな数になり、計算結果が不安定になることがあります。実務では、入力値 z_i から最大値を引くなどの工夫をして計算安定性を高めることが多いです。例えば、最大値を m として exp(z_i - m) / sum_j exp(z_j - m) の形にする方法です。

ソフトマックスは、分類問題だけでなく機械学習の評価指標としても重要です。よく使われる組み合わせは、ソフトマックスとクロスエントロピー損失です。クロスエントロピーは、予測された確率と正解ラベルの組み合わせから誤差を計算し、モデルを学習させるための指標になります。

よくある質問

Q1: ソフトマックスとシグモイドの違いは何ですか？
A1: シグモイドは2値分類で使われることが多いのに対し、ソフトマックスは3つ以上のクラスを扱う多クラス分類に適しています。シグモイドは個々のクラスが独立している場合、ソフトマックスはクラス間の競合関係を考慮します。

Q2: 入力が同じスコアでも、クラス数が増えるとどうなりますか？
A2: 各クラスの確率は調整され、総和は1になるように正規化されます。クラス数が増えると、小さな確率のクラスが増える場合があります。

まとめ

ソフトマックスは、複数の候補の中から「どの候補が最も妥当か」を確率として表す基本的なツールです。式はシンプルですが、数値計算の工夫が学習の安定性に直結します。初心者のうちは、実際のデータで小さな例から練習するのが理解の近道です。

ソフトマックスの同意語

ソフトマックス関数: 多クラス分類の出力を確率分布に変換する関数。入力ベクトルの各要素に指数関数を適用し、全要素の指数の和で割って 0 〜 1 の確率に正規化します。式は exp(x_i)/sum_j exp(x_j)。
ソフトマックス層: ニューラルネットワークの出力層で、入力をソフトマックス関数に通して各クラスの確率を出力します。
ソフトマックス変換: 入力データをソフトマックス関数で確率分布に変換する操作のことを指します。
確率化関数: 入力を確率分布へ変換する機能を持つ関数の総称。ソフトマックスの役割を表す別名として使われることがあります。
指数正規化関数: 指数関数を用いて値を正規化する関数。ソフトマックスの計算イメージを指す表現として使われることがあります。
確率分布正規化関数: 出力を確率分布に整える正規化処理。ソフトマックスの機能を説明するときの別の表現として使われます。

ソフトマックスの対義語・反対語

ハードマックス: ソフトマックスの対義語としてよく用いられる概念。入力ベクトルの最大値の成分を1に、それ以外を0にして、確率分布ではなく決定的なワンホットベクトルを返す処理や出力形式。
アーグマックス: 最大値のインデックスを返す演算。ソフトマックスが確率分布を出すのに対して、最も大きい要素の位置を特定するだけの機能。
ワンホット表現: クラスを1つだけ選択して1、それ以外を0にする表現。ソフトマックスの確率分布と対になる、決定済みのクラスを示す表現。
最大値選択/最大値を返す関数: 入力ベクトルの中の最大値を選び出す処理。確率を生成せず、単純に最も大きい要素を選ぶ動作。
決定的分類: 結果を確率として分布させず、1つのクラスを決定として返す分類のスタイル。ソフトマックスの確率的性質の対極となるイメージ。