

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
カテゴリカル変数・とは?初心者にやさしい意味と使い方ガイド
データ分析でよく登場する「カテゴリカル変数」は、私たちの生活の中にもたくさんあります。たとえば性別、血液型、居住地などです。この記事では、カテゴリカル変数の基本を中学生にも分かるように順を追って解説します。
カテゴリカル変数とは、データをいくつかの区別できるカテゴリーに分ける変数です。数値としての大小関係は基本的に意味を持たず、カテゴリーそのものが「種類」を表します。
統計やデータ分析で扱うとき、データが数値変数だけではなくカテゴリカル変数もあると、分析の方法が変わってきます。適切な前処理をせずにモデルに渡すと、誤解を生む可能性があります。
名義尺度と順序尺度
カテゴリカル変数には主に2つのタイプがあります。まず名義尺度です。名義尺度は、カテゴリー同士に順序がなく、並べ替えても意味が変わりません。例として性別、血液型、出身地などが挙げられます。
次に順序尺度です。順序尺度は、カテゴリーに「順序」があり、あるカテゴリーが他のカテゴリーより上か下かを並べ替えられます。例として満足度の「低-中-高」や学年の順などがあります。
名義と順序の違いを表で確認
| 特徴 | 名義尺度 | 順序尺度 |
|---|---|---|
| 意味 | カテゴリーのみ、順序なし | カテゴリーと順序の情報あり |
| 例 | 性別、血液型、地域名 | 満足度スケール、学年ランク |
| 扱いの注意 | 数値化しても大小は意味なし | 大小関係を活用できる |
このように、名義と順序は分析の成否に直結します。後者はモデルに取り入れる際、順序をどう扱うかを決める必要があります。
カテゴリカル変数の扱い方の基本
機械学習や統計分析では、データは多くの場合数値で扱われます。そのためカテゴリカル変数をそのままモデルに渡すと誤解を招くことがあります。ここでは代表的な前処理を紹介します。
まずエンコーディングと呼ばれる方法です。One-Hot Encodingは、カテゴリごとに新しい列を作り、該当する列だけ1、他が0になるようにします。例として「果物」が「りんご・みかん・ぶどう」なら3列を作り、それぞれの行が該当する列に1を立て、他は0にします。これにより数値的な意味を持たせず、カテゴリを独立した特徴として扱えます。
もう一つの方法は Label Encoding です。カテゴリに整数を割り当てる方法で、順序を付けるべきではない名義尺度には注意が必要です。順序がある場合には有効なこともありますが、アルゴリズムによっては誤解を生むことがあります。
日常の例と前処理のコツ
日常のデータとしては、ウェブサイトの訪問者属性、地域別の売上データ、アンケートの回答などが該当します。未知のカテゴリが新しくデータに現れた場合の扱いを事前に考えておくと良いです。例えば「地域名」が新しい県名で現れた場合の対処として、その他カテゴリーを設けるか、トレーニングデータに出現するカテゴリだけを学習させる方法があります。
実務での注意点とよくある誤解
「カテゴリカル変数は必ず数値化すべきだ」という誤解があります。正しくは、エンコーディングの適切さとモデルへの適合性が重要です。名義尺度を数値で扱うと、大小関係を意味する無意識のバイアスが生まれることがあります。したがって名義の場合はOne-Hot Encodingを使うのが安全です。
まとめと次のステップ
カテゴリカル変数を正しく理解することはデータ分析の基盤です。名義と順序の違いを見分け、適切なエンコーディングを選ぶ練習を積みましょう。身近なデータを例にして、表やデータの分布を観察する癖をつけると、分析の腕が自然と上がります。
カテゴリカル変数の同意語
- 質的変数
- 数値としての大きさよりも属性や品質を表す変数。例: 性別、血液型など。通常、大小比較は意味を持ちません。
- 名義変数
- 順序を持たないカテゴリを区別する変数。例: 国籍、職業。カテゴリ同士の比較は意味を持たず、ラベルとして機能します。
- 名義データ
- 名義尺度で測定されるデータ。データの値はカテゴリを識別するラベルであり、順序関係は意味を持ちません。
- 名義尺度変数
- 名義尺度に該当する変数。値はカテゴリの識別ラベルとして機能し、大小の序列は解釈しません。
- カテゴリデータ
- データがカテゴリとして表現されるデータ。カテゴリ間に距離はなく、属性を分類する目的で使われます。
- カテゴリカルデータ
- カテゴリとして表現されたデータ全般。名義・順序などのサブタイプを含み、数値化しない情報を扱います。
- カテゴリ変数
- カテゴリを取る変数。数値の大きさで比較せず、分類や集計の対象として用います。
- 順序変数
- カテゴリの中に順序関係がある変数。例: 満足度の5段階評価。順序は意味を持ちますが、距離を等間隔とみなすには注意が必要です。
- 順序尺度変数
- 順序尺度に該当する変数。カテゴリには順序があるが、等間隔性や比率は保証されない点に留意します。
カテゴリカル変数の対義語・反対語
- 連続変数
- カテゴリカル変数の対義語として最も一般的な用語。値が連続的に取りうる数値データで、身長・体重・温度などのように任意の実数の範囲を含み、平均や回帰といった算術的処理が意味を持つ。
- 定量変数
- カテゴリカル変数の対義語として広く使われる用語。数値として測定・表現されるデータで、定量データとも呼ばれる。例:距離、速度、時間など。
- 数値変数
- 値が数値で表され、大小比較や算術演算が意味を持つ変数。カテゴリカル変数の対義語として用いられることが多い。
- 実数変数
- 実数値を取る変数。連続変数の具体例として使われ、理論上は任意の実数を含み得る。
- 離散変数
- 連続ではなく、離散的な値を取る数値変数。カテゴリカル変数の対義語として用いられる場面もある。例:人数や回数などの整数データ。
カテゴリカル変数の共起語
- 名義変数
- 順序性がなく、カテゴリだけを区別する変数。例: 血液型、都道府県名。
- 順序変数
- カテゴリに明確な順序がある変数。例: 小–中–大、満足度の評価(1-5).
- カテゴリカルデータ
- カテゴリとして分類されるデータ。名義変数と順序変数を含む総称。
- カテゴリ数
- その変数が取りうる異なるカテゴリの数。レベル数とも呼ばれる。
- 頻度分布
- 各カテゴリの出現頻度や割合を表した分布。棒グラフや円グラフで可視化される。
- ダミー変数
- カテゴリを0または1の二値で表す変数。機械学習の入力に使われる。
- ワンホットエンコーディング
- 各カテゴリを別々の二値列として表すエンコーディング手法。取り扱いが直感的。
- ラベルエンコーディング
- カテゴリを整数で割り当てるエンコーディング。順序を人工的につけることがあるので注意。
- エンコーディング
- カテゴリカルデータを数値データへ変換する総称的な手法群。
- 欠損値
- カテゴリカル変数に欠損値が含まれる場合の扱い。欠損を1つのカテゴリにする等の方法がある。
- 欠損カテゴリ
- 欠損を特別なカテゴリとして扱う方法。分析の前処理で検討する。
- カイ二乗検定
- 二つのカテゴリ変数の独立性を検定する代表的な統計手法。
- 独立性検定
- カテゴリ間の独立性を評価する検定の総称。カイ二乗検定など。
- クロス集計
- カテゴリ別の組み合わせを表にして関係を確認する集計方法。
- ピボット表
- データをカテゴリ軸で整理して合計や割合を表示する表。クロス集計の一種。
- カテゴリ階層/階層カテゴリ
- カテゴリが階層構造を持つ場合の表現。上位カテゴリと下位カテゴリを区別する。
- 階層ラベル
- 階層構造に対応するカテゴリ名。解釈性に影響。
- カテゴリの順序性の取り扱い
- 順序があるかないかでエンコーディングの選択が変わる点。
- 前処理/カテゴリカル変数の前処理
- 欠損値処理、エンコーディング、カテゴリの標準化など、分析前の整備作業。
- カテゴリ間の不均衡
- あるカテゴリの出現頻度が他より大きく偏っている状態。モデル学習に影響する。
- ダミー変数のトラップ
- ダミー変数を過剰に作ると多重共線性が生じ、モデルの推定が不安定になること。
カテゴリカル変数の関連用語
- カテゴリカル変数
- 値がカテゴリ名やラベルで表される変数。数値的な大小関係は意味を持たず、分類や区別を目的とします。
- 名義尺度
- カテゴリ間に順序がない測定尺度。例: 国名、血液型など。
- 順序尺度
- カテゴリ間に自然な順序がある測定尺度。例: 評価の段階や順位など。
- 二値変数
- カテゴリが2つだけの変数。例: はい/いいえ、男性/女性(状況により異なる)
- ワンホットエンコーディング
- カテゴリごとに新しい二値列を作成し、サンプルが該当カテゴリなら1、それ以外は0になります。
- ダミー変数
- ワンホットエンコーディングのうち、基準カテゴリを除外する形。線形モデルで多重共線性を回避します。
- ラベルエンコーディング
- カテゴリに整数を割り当てるエンコーディング。順序を誤解させないよう注意が必要です。
- 順序エンコーディング
- カテゴリの順序を保ってエンコードする手法。元の順序が意味を持つ場合に適用します。
- 頻度エンコーディング
- カテゴリをデータ中の出現頻度で置換するエンコーディング。分布の偏りを反映します。
- ターゲットエンコーディング
- カテゴリをターゲット変数の平均値で置換するエンコーディング。回帰/分類の性能を向上させる場合がありますが過学習に注意。
- 欠損値の扱い
- カテゴリカルデータの欠損は未知のカテゴリとして扱う、最頻値で埋める、別カテゴリとして分類する等の方法があります。
- クロス集計
- 2つ以上のカテゴリ変数の同時出現を表にした集計表です。関係性の把握や独立性の検定に用います。
- 階層的カテゴリ
- 地域や部門のように階層化されたカテゴリ。例: 国 > 都道府県 > 市区町村。
- カテゴリの結合/再分類
- 意味の近いカテゴリをまとめて数を安定させる手法。データの粒度を調整します。
- モード
- データセットで最も頻繁に出現するカテゴリ。欠損値処理の判断材料にもなります。
- カテゴリ型データ
- Pandas などのデータ処理ライブラリで category 型として扱えるデータ。記憶域の節約と高速処理が期待できます。
- クラス不均衡
- カテゴリ分布が偏っている状態。モデル学習に影響するため対策が必要です。
- エンコーディングの選択基準
- モデルの種類やデータ量、タスクに応じて最適なエンコーディング手法を選ぶ指針です。



















