k近傍法・とは？初心者にもわかる解説と使い方のポイント共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

k近傍法とは？

k近傍法は、データを分類したり連続値を予測したりする、シンプルで直感的な機械学習の方法です。新しいデータの「ラベル」を、訓練データの中で距離が近い点のラベルに合わせて決めます。よく使われるのは、近い点の意見を集めて結論を出すようなイメージです。

この方法は距離の定義、パラメータの k、データの前処理によって結果が大きく変わります。k の値が小さすぎるとノイズの影響を受けやすくなり、大きすぎると局所的な特徴を見逃します。

基本の考え方

新しいデータ点 x に対して、訓練データのうち k 個の点を見つけ、それらのラベルの多数決で分類します。回帰の場合は、近傍の値の平均をとって予測します。距離の計算には、ユークリッド距離が一般的ですが、データの性質に合わせて他の距離を使うこともあります。

距離の定義と前処理

距離の定義は、データの特徴量のスケーリングや正規化と深く関係します。特徴量の単位がバラバラだと距離の計算が偏ってしまうため、事前に標準化や正規化を行うのが基本です。特に次元が多いデータでは、次元の呪いに注意が必要です。

使い方の流れ

以下の手順で使います。

ステップ	説明
データ準備	訓練データを集め、特徴量とラベルを用意します。必要に応じてスケーリングをします。
距離を計算	新しいデータ点と訓練データ点の距離を計算します。距離の定義を選ぶことが重要です。
近傍を選ぶ	距離が近い k 点を取り出します。
予測を決める	分類なら多数決、回帰なら平均で予測を決定します。

実践のポイント

k の選び方は重要です。k が小さすぎるとノイズに敏感、大きすぎると局所的な情報をつかみにくいという特徴があります。データの前処理は欠かせません。特徴量のスケーリングを行うことで、各特徴が等しい影響を持つようにします。

長所と短所

長所: 実装が簡単で、訓練データの追加が容易、解釈が直感的です。

短所: 計算量が多く、データ量が大きいと遅くなる。次元が高いと性能が低下しやすく、データの分布にも敏感です。

実生活での例

手書き文字認識や、ある商品の特徴量をもとに「近い」商品のカテゴリを予測する場面などで使われます。初期段階のモデルとして試すのに適しています。

まとめ

k近傍法は、距離を基準に近いデータを集めて予測を決める、とても直感的なアルゴリズムです。適切な k の設定とデータの前処理次第で、初心者でも有用な予測モデルを作ることができます。

ポイント表

ポイント	説明
近傍の定義	距離の計算方法と k の選択が結果を左右します。
スケーリング	特徴量の単位をそろえることで影響のバランスをとります。
予測の性質	分類なら多数決、回帰なら平均で決定します。

k近傍法の同意語

k近傍法: 新しいデータ点を分類・回帰する際に、訓練データの中から距離が近いk個のデータを参照して結果を決める、代表的な機械学習アルゴリズム。
k-NN法: 英語の k-nearest neighbors の略称で、日本語の文章中でもよく使われる同義語。
kNN法: kNN の表記。ハイフンなしの略称として使われることも多い。
k最近傍法: 新規データ点の近傍にあるk個のデータを用いて、分類は多数決、回帰は近傍の値の加重平均で推定する手法。
k最近傍アルゴリズム: k最近傍法を指す別名。アルゴリズムとしての名称表現。
k近傍分類法: 分類タスクに焦点を当てた呼び方。近傍データの情報でクラスを決める。
k最近傍分類法: 分類目的の k近傍法の表現。
k近傲推定法: 誤字訂正後の表現。正しくは「k近傍推定法」で、近傍データの値を使って予測する手法。
k最近傍推定法: 回帰などで近傍データの値を使って予測する表現。
k近傍予測法: 新しいデータ点の値を近傍データから予測する手法の表現。
最近傍法（kを明示的に指定した表現）: 一般には最近傍法のうち、kを指定して用いる手法を指す。

k近傍法の対義語・反対語

パラメトリック学習: データの分布を仮定して、有限個のパラメータでモデルを表現する学習。k近傍法は非パラメトリックで、訓練データそのものを参照して予測を行う点が特徴です。
モデルベース学習: データから事前に仮定したモデルを構築して推定・予測を行う学習。k近傍法のように局所の近傍情報だけで決定するのではなく、全体のモデルを用いる点が異なります。
ルールベース分類: 予め設計したルールに従って分類を決定する方法。データの近傍や距離には依存せず、規則に基づく判定を行います。
線形モデル: 入力特徴量の線形結合で予測をするパラメトリックなモデル（例：線形回帰、ロジスティック回帰）。kNNの非パラメトリック性とは対照的に、一定の形を持つモデルを用います。
決定木: 特徴量の条件でデータを二分岐して分類/回帰を行う木構造のモデル。全体のルールを学習する点が、局所的な近傍に基づくkNNとは異なります。
SVM（サポートベクターマシン）: データを高次元空間で最適な境界で分割する識別モデル。グローバルな決定境界を重視する点が、局所近傍に着目するkNNと対照的です。
ニューラルネットワーク: 多数のパラメータと層を用いて非線形な関数を学習するモデル。大規模データでの一般化を狙う点が、kNNの単純な近傍計算とは異なります。
生成モデル: データがどの分布から来たのかを仮定してデータの生成過程をモデル化する手法（例：ガウス混合モデル、隠れマルコフモデル）。kNNは生成過程を前提せず、近傍情報で予測する点が異なります。
教師なし学習: ラベルなしデータから構造や分布を学習する手法。kNNは監視学習として用いられることが多く、対比概念として挙げられます。

k近傍法の共起語

最近傍法: 最も近い1点を用いて予測する手法。k=1の場合、最近傍法とも呼ばれ、k近傍法の基本的な考え方を示します。
KD木: kNNの近傍探索を高速化するデータ構造。空間を分割して距離計算を効率化します。
Ball tree: KD木と同様に近傍探索の効率化を図るデータ構造。特に高次元データや異なる距離計量で効果的です。
距離計量: データ点間の「距離」や近さを測る指標。kNNでは距離が近い点ほど影響が大きくなります。
ユークリッド距離: 点と点の直線距離。最も一般的で直感的な距離計算です。
マンハッタン距離: 各座標軸の距離を足し合わせた距離。高次元データでの挙動が異なることがあります。
コサイン類似度: 2点間の角度を基準にした類似度。距離ではなく類似度を用いる場面で使われます。
特徴量: データが表す属性のこと。kNNでは特徴量の組み合わせが距離計算の基礎になります。
データセット: 学習用データと評価用データを含むデータ集合。kNNは訓練データを全て参照します。
トレーニングデータ: 学習に使用するラベル付きデータ。
テストデータ: モデルの性能を評価するために使うデータ。
ラベル/クラスラベル: データ点の正解となるカテゴリや値。分類問題で用いられます。
次元削減: データの次元を減らして計算量を抑え、可視化や精度向上を図る前処理。
標準化: 特徴量の平均を0、分散を1に揃える前処理。kNNでは距離計算の偏りを減らします。
正規化: 特徴量を一定の範囲にスケールする前処理（例: 0〜1）。
スケーリング: 特徴量の値域を揃える前処理全般。距離計算の影響を均一化します。
クロスバリデーション: データを分割して複数回評価する手法。過学習を避ける目的で使われます。
kの値: 近傍として参照するデータ点の数。適切なkを選ぶことで性能が変わります。
教師あり学習: ラベル付きデータを使って学習を行う方法。kNNは代表的な教師あり学習アルゴリズムです。
ノイズ耐性: データ中のノイズに対する頑健さ。kNNは局所情報に敏感なためノイズの影響を受けやすいことがあります。
予測時間/計算量: 新しいデータ点を予測する際の計算コスト。大規模データでは効率化が重要です。
近傍探索アルゴリズム: 近傍点を探すための方法の総称。線形探索以外にも木構造や近傍木が使われます。
非線形データ: 線形分離が難しいデータにも適用可能な非パラメトリック手法としての特徴。

k近傍法の関連用語

k近傍法: 監督学習の非パラメトリックアルゴリズム。新しいデータ点のクラスを、訓練データのk個の近傍ラベルで決定する（分類）または近傍の値の平均を取る（回帰）。
距離尺度: データ点間の距離を測る指標。近傍探索の基盤。
ユークリッド距離: n次元空間の直線距離。最もよく使われる基本的な距離。
マンハッタン距離: 座標軸に沿って移動する距離の総和。別名L1距離。
ミンコフスキー距離: pがパラメータの一般化距離。p=2でユークリッド、p=1でマンハッタンとなる。
コサイン類似度: ベクトルの方向性を測る指標。距離ではなく類似度を用いて近傍を判断することがある。
Gower距離: 混合データ型（数値・カテゴリ）にも対応する距離指標。
特徴量スケーリング: 各特徴量を同じスケールに揃える前処理。距離のバイアスを減らす。
標準化: 平均0、分散1になるように変換するスケーリング手法。
最小-最大スケーリング: 最小0、最大1になるようにデータを線形変換する手法。
クロスバリデーション: データを複数の folds に分けてモデルの汎化性能を評価する手法。
kの選択: kの値を決定するハイパーパラメータ。小さすぎるとノイズに敏感、大きすぎると過度に平滑化される。
多数決投票: 分類時、近傍ラベルの多数派で予測を決定する投票方式。
距離重み付き投票: 近い近傍ほど重みを大きくして予測する投票方式。
kNN回帰: k近傍法を回帰問題に適用。近傍の値の加重平均で予測する。
非パラメトリック: データ分布の形を仮定しない学習法。
Lazy learning: 学習時にほとんど処理をせず、予測時に訓練データを用いる学習形態。
近傍探索データ構造: 高速に近傍を探索するためのデータ構造。実装の性能を大きく左右する。
KD-tree: 多次元データの最近傍探索を高速化する木構造。
Ball tree: 高次元データの近傍探索に適した木構造。
Brute-force探索: 全データ点との距離を全て計算して最も近い点を探す単純な方法。
Approximate Nearest Neighbors: 厳密な最近傍を求めず、近似的に高速に探索する手法。
LSH: 局所感度ハッシュ。近傍探索を高速化する近似手法の一つ。
次元の呪い: 高次元になると距離の判定が難しくなり、kNNの性能が低下する現象。
大規模データの課題: データ量が多いと距離計算コストが高く、実用上の課題になる。
欠損値処理: 欠損データへの対応。欠損を埋める、または影響を最小化する工夫が必要。
混合データの距離: 数値データとカテゴリデータを同時に扱う距離測定の工夫（例：Gower距離）。
実世界の用途例: 手書き文字認識、画像の類似検索、簡易的な推薦システムなど。