カテゴリカル変数・とは？初心者にやさしい意味と使い方ガイド共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

カテゴリカル変数・とは？初心者にやさしい意味と使い方ガイド

データ分析でよく登場する「カテゴリカル変数」は、私たちの生活の中にもたくさんあります。たとえば性別、血液型、居住地などです。この記事では、カテゴリカル変数の基本を中学生にも分かるように順を追って解説します。

カテゴリカル変数とは、データをいくつかの区別できるカテゴリーに分ける変数です。数値としての大小関係は基本的に意味を持たず、カテゴリーそのものが「種類」を表します。

統計やデータ分析で扱うとき、データが数値変数だけではなくカテゴリカル変数もあると、分析の方法が変わってきます。適切な前処理をせずにモデルに渡すと、誤解を生む可能性があります。

名義尺度と順序尺度

カテゴリカル変数には主に2つのタイプがあります。まず名義尺度です。名義尺度は、カテゴリー同士に順序がなく、並べ替えても意味が変わりません。例として性別、血液型、出身地などが挙げられます。

次に順序尺度です。順序尺度は、カテゴリーに「順序」があり、あるカテゴリーが他のカテゴリーより上か下かを並べ替えられます。例として満足度の「低-中-高」や学年の順などがあります。

名義と順序の違いを表で確認

特徴	名義尺度	順序尺度
意味	カテゴリーのみ、順序なし	カテゴリーと順序の情報あり
例	性別、血液型、地域名	満足度スケール、学年ランク
扱いの注意	数値化しても大小は意味なし	大小関係を活用できる

このように、名義と順序は分析の成否に直結します。後者はモデルに取り入れる際、順序をどう扱うかを決める必要があります。

カテゴリカル変数の扱い方の基本

機械学習や統計分析では、データは多くの場合数値で扱われます。そのためカテゴリカル変数をそのままモデルに渡すと誤解を招くことがあります。ここでは代表的な前処理を紹介します。

まずエンコーディングと呼ばれる方法です。One-Hot Encodingは、カテゴリごとに新しい列を作り、該当する列だけ1、他が0になるようにします。例として「果物」が「りんご・みかん・ぶどう」なら3列を作り、それぞれの行が該当する列に1を立て、他は0にします。これにより数値的な意味を持たせず、カテゴリを独立した特徴として扱えます。

もう一つの方法は Label Encoding です。カテゴリに整数を割り当てる方法で、順序を付けるべきではない名義尺度には注意が必要です。順序がある場合には有効なこともありますが、アルゴリズムによっては誤解を生むことがあります。

日常の例と前処理のコツ

日常のデータとしては、ウェブサイトの訪問者属性、地域別の売上データ、アンケートの回答などが該当します。未知のカテゴリが新しくデータに現れた場合の扱いを事前に考えておくと良いです。例えば「地域名」が新しい県名で現れた場合の対処として、その他カテゴリーを設けるか、トレーニングデータに出現するカテゴリだけを学習させる方法があります。

実務での注意点とよくある誤解

「カテゴリカル変数は必ず数値化すべきだ」という誤解があります。正しくは、エンコーディングの適切さとモデルへの適合性が重要です。名義尺度を数値で扱うと、大小関係を意味する無意識のバイアスが生まれることがあります。したがって名義の場合はOne-Hot Encodingを使うのが安全です。

まとめと次のステップ

カテゴリカル変数を正しく理解することはデータ分析の基盤です。名義と順序の違いを見分け、適切なエンコーディングを選ぶ練習を積みましょう。身近なデータを例にして、表やデータの分布を観察する癖をつけると、分析の腕が自然と上がります。

カテゴリカル変数の同意語

質的変数: 数値としての大きさよりも属性や品質を表す変数。例: 性別、血液型など。通常、大小比較は意味を持ちません。
名義変数: 順序を持たないカテゴリを区別する変数。例: 国籍、職業。カテゴリ同士の比較は意味を持たず、ラベルとして機能します。
名義データ: 名義尺度で測定されるデータ。データの値はカテゴリを識別するラベルであり、順序関係は意味を持ちません。
名義尺度変数: 名義尺度に該当する変数。値はカテゴリの識別ラベルとして機能し、大小の序列は解釈しません。
カテゴリデータ: データがカテゴリとして表現されるデータ。カテゴリ間に距離はなく、属性を分類する目的で使われます。
カテゴリカルデータ: カテゴリとして表現されたデータ全般。名義・順序などのサブタイプを含み、数値化しない情報を扱います。
カテゴリ変数: カテゴリを取る変数。数値の大きさで比較せず、分類や集計の対象として用います。
順序変数: カテゴリの中に順序関係がある変数。例: 満足度の5段階評価。順序は意味を持ちますが、距離を等間隔とみなすには注意が必要です。
順序尺度変数: 順序尺度に該当する変数。カテゴリには順序があるが、等間隔性や比率は保証されない点に留意します。

カテゴリカル変数の対義語・反対語

連続変数: カテゴリカル変数の対義語として最も一般的な用語。値が連続的に取りうる数値データで、身長・体重・温度などのように任意の実数の範囲を含み、平均や回帰といった算術的処理が意味を持つ。
定量変数: カテゴリカル変数の対義語として広く使われる用語。数値として測定・表現されるデータで、定量データとも呼ばれる。例：距離、速度、時間など。
数値変数: 値が数値で表され、大小比較や算術演算が意味を持つ変数。カテゴリカル変数の対義語として用いられることが多い。
実数変数: 実数値を取る変数。連続変数の具体例として使われ、理論上は任意の実数を含み得る。
離散変数: 連続ではなく、離散的な値を取る数値変数。カテゴリカル変数の対義語として用いられる場面もある。例：人数や回数などの整数データ。