ndcg・とは?初心者向けに学ぶ検索ランキングの基本と使い方共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
ndcg・とは?初心者向けに学ぶ検索ランキングの基本と使い方共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


ndcg・とは何か

ndcg とは Normalized Discounted Cumulative Gain の略で、検索結果やおすすめリストの品質を数値で表す指標です。高い順位に本当に役立つ情報が来るかを評価します。

ざっくり言うと、「上位に来た情報がどれだけ関連性が高いか」を測る指標です。完全に正しい順序であれば ndcg は 1.0 に近づき、間違った順序だと 0 に近づきます。

この指標は DCG(Discounted Cumulative Gain)と IDCG(Ideal DCG)という二つの考え方から成り立っています。DCG は実際のランキングでの直近の各項目の「価値」を足し合わせたもの。IDCG はそのランキングを理想通り並べ替えた時の DCG です。NDCG は DCG を IDCG で割ることで正規化した値なので、比較しやすくなります。

下の例と表を見れば、NDCG のイメージがつかめます。

簡単な表による例

順位関連度DCG の献値
137
223/log2(3) ≈ 1.89
311/2 = 0.5

この例の DCG は約 9.39、理想的な並び(関連度が高い順)で得られる IDCG も約 9.39 です。その場合 NDCG はほぼ 1.0 になり、現在の並びが最適であることを意します。

ndcg の使いどころ

ndcg は検索エンジンの結果を評価するときや、動画・商品などのおすすめリストの品質を測るときに使われます。上位に出てくるアイテムが本当にユーザーにとって役立つかを数値で判断できます。

ndcg を改善するには

NDCG を高くするには、まずはデータの関連性を正しく捉えることが大切です。良い特徴量を使う、モデルを改善する、リランキングを実施する などのアプローチがあります。

実務では、ユーザーのクリックや滞在時間などの行動データを使って、どのアイテムが上位に来るべきかを再評価します。探索と利用のバランスを取ることがポイントです。

まとめ

ndcg は、情報検索やレコメンドの「順位の良さ」を測る強力な指標です。理想の順序と実際の順位の差を数値化し、改善点を見つけやすくします初心者の方は、まず DCG と IDCG の考え方と、簡単な例の計算を押さえると理解が深まります。


ndcgの同意語

NDCG
Normalized Discounted Cumulative Gain(正規化割引累積利得): ランキングの品質を評価する指標で、関連度が高いアイテムを上位に配置させるほど高評価になります
正規化割引累積利得
NDCGと同義。割引付き累積利得を正規化した指標の日本語表現です。
正規化DCG
NDCGの別名。Normalized Discounted Cumulative Gain の日本語表現の一つ。
正規化ディスカウント累積利得
NDCGの直訳表現。割引付き累積利得を正規化した評価指標です。
NDCG@k
Top-k版の NDCG。上位 k 件の結果のみを使って評価します。
NDCG at k
NDCG@k の英語表現。

ndcgの対義語・反対語

非正規化ゲイン
ndcgの分母であるIDCGで正規化されていない、スケール依存のゲイン指標。値はデータセットのサイズやスケールに左右されるため、比較には向かない。元のDCGに対応する概念。
非割引累積ゲイン
ディスカウント(順位による減衰)を適用していない累積ゲイン。DCGと混同されやすいが、割引を使わず蓄積した値を指す。
逆NDCG
NDCGとは逆の傾向を評価する仮想的指標。高い値が“悪いランキング”を意味するように設計されることがあるが、実務上はあまり用いられません。
IDCG
NDCGの分母となる理想的なDCG。正規化の基準値として機能する概念。
正規化を重視しない指標
正規化の処理を行わず、単純な得点だけを見る指標。比較時には不適切になりがちな特徴を持つ。
割引のない影響評価
ランキング順位による割引効果を排除した評価。
ディスカウントなしの順位適合度
順位を考慮せず、関連度の総和だけで評価するような適合度指標。
CG(Cumulative Gain)
割引を適用しない累積ゲイン。NDCGの原型となる概念で、スケール依存の評価になる。

ndcgの共起語

DCG
Discounted Cumulative Gain の略。ランキングの各アイテムの関連度を、順位に応じて割引して合計した指標。
IDCG
Ideal Discounted Cumulative Gain の略。理想的な順位付けに基づく最大の DCG の値。nDCG はこの値で正規化される指標。
グレード付き関連度
Relevance の階層を表す尺度。0〜4 などの複数レベルで評価するグレード付き関連度が ndcg の前提として使われる。
二値関連度
Binary Relevance。関連性を0/1で表現する設定。nDCG はこの場合にも適用されるが、階層的な関連度も活用できる。
正規化
Normalization。DCG を IDCG で割って 0〜1 の範囲に正規化する手法。
対数の底
DCG の割引は順位に応じて対数で定義され、通常は底が 2 の log2 が用いられる。
情報検索
Information Retrieval。検索結果の品質を評価する分野。ndcg は IR の代表的な評価指標の一つ。
ランキング評価指標
Ranking metric。ランキングの品質を測る指標全般のうちの一つ。
トップK
Top-K。上位 K 件の結果に焦点を当てた評価表現。例: ndcg@K。
nDCG@K
Top-K 版の ndCG。K 件分の結果のみを対象とした指標。
LETOR
LETOR。ランキング学習アルゴリズムの評価データセット群。ndcg の評価にも使われる。
オフライン評価
Offline evaluation。実環境を使わず事前に用意したデータで評価する手法。
関連度スケール
Relevance scale。関連性を表す尺度。例: 0〜4 などの階層スケール。
階層的関連度
Graded/ordinal relevance。関連度が階層的に表されることで ndcg の特性を活かせる。

ndcgの関連用語

NDCG
正規化された割引付き累積適合度。ランキング全体の品質を0〜1の範囲で評価する指標。理想的なランキング(IDCG)で正規化され、値が高いほど良いことを意味します。
DCG
Discounted Cumulative Gainの略。順位が上の方の要素により大きなウェイトを与えるようゲインを累積して算出する指標。
IDCG
Ideal DCGの略。与えられたデータセットで理想的に並べ替えたときの最大DCG。NDCGを正規化する基準となる。
DCG@k
上位k件までのDCG。kを固定して評価する際に用いられる。
NDCG@k
上位k件までを対象としたNDCG。kを固定してランキング品質を評価する。
Rel(関連度)
ドキュメントの関連の程度を示す値。多くは0〜3などの階段スケールで表現されることが多い。
Graded relevance
階層的関連度。0、1、2、3など複数段階のスケールで評価する方式。
Binary relevance
二値的関連度。関連あり=1、なし=0の簡易な評価形式。
Gain
ゲイン。関連度 rel から得られる寄与。NDCGでは通常 2^rel - 1 の形で計算する。
Discount
割引。順位が深くなるほど寄与を抑える係数。NDCGでは一般に log2(i+1) で割る。
log2割引
割引の具体例。順位 i に対する割引は log2(i+1) を用いるのが一般的
Top-k
評価対象の上位k件。kを固定して評価する設定で使われる用語。
P@k (Precision at k)
上位k件のうち正解と判断される割合。ランキングの最上位部分の正確さを測る指標。
R@k (Recall at k)
上位k件のうち回収した関連ドキュメントの割合。網羅性を評価する指標。
MAP (Mean Average Precision)
全クエリに対する平均的な平均適合度。全体的なランキング品質を一つの数値で表す指標。
AP (Average Precision)
単一クエリにおける平均適合度。関連ドキュメントの出現順序に基づく指標。
Reciprocal Rank (RR)
最初に現れる関連ドキュメントの順位の逆数。検索の初期ヒット性を評価する指標。
TREC
Text Retrieval Conference。情報検索の評価とベンチマークを提供する長寿命のイベント
Information Retrieval (情報検索)
検索クエリに対して関連度の高い文書を返す分野。NDCGは情報検索のランキング評価で使われる代表的指標。
Spearman's rho
順位相関係数。2つのランキングの順位関係の対応度を測る指標。
Kendall's tau
別の順位相関係数。2つの順位リストの一致度を評価する指標。
Ranking list (ランキングリスト)
検索結果の並び順のリスト。NDCGの計算対象となるデータ構造。

ndcgのおすすめ参考サイト


インターネット・コンピュータの人気記事

awstatsとは?初心者でもわかる使い方と基本解説共起語・同意語・対義語も併せて解説!
14576viws
bing・とは?初心者のための基本ガイド:検索エンジンの仕組みと使い方共起語・同意語・対義語も併せて解説!
2434viws
着信転送とは?初心者向けガイドで分かる使い方と設定のコツ共起語・同意語・対義語も併せて解説!
1083viws
差し込み印刷・とは?初心者でもすぐわかる使い方と仕組みガイド共起語・同意語・対義語も併せて解説!
1064viws
com端子・とは?初心者にも分かる基礎ガイド|シリアルポートの使い方と歴史を解説共起語・同意語・対義語も併せて解説!
947viws
充電アダプターとは何かを徹底解説|初心者でも分かる基本と選び方のコツ共起語・同意語・対義語も併せて解説!
916viws
全角文字とは?初心者向け解説|全角と半角の違いをやさしく学ぶ共起語・同意語・対義語も併せて解説!
858viws
7zファイル・とは?初心者でもわかる使い方と特徴を解説共起語・同意語・対義語も併せて解説!
857viws
pinロックとは?初心者が知っておくべき基本と使い方ガイド共起語・同意語・対義語も併せて解説!
802viws
リマインドメールとは?初心者にもわかる基本ガイドと使い方のコツ共起語・同意語・対義語も併せて解説!
796viws
none とは?初心者にもやさしく解説する意味と使い方ガイド共起語・同意語・対義語も併せて解説!
732viws
16進数カラーコード・とは?初心者でもつまずかない基礎と使い方ガイド共起語・同意語・対義語も併せて解説!
717viws
xlsmとは?初心者でも分かるExcelのマクロ付きファイルの基本共起語・同意語・対義語も併せて解説!
612viws
asp・とは?初心者向けに徹底解説する基本と使い方ガイド共起語・同意語・対義語も併せて解説!
601viws
ローカルポート・とは?初心者にも分かる基本と使い方ガイド共起語・同意語・対義語も併せて解説!
593viws
countifとは?初心者でもすぐ使える基本と応用ガイド共起語・同意語・対義語も併せて解説!
556viws
ワンタイムコード・とは?初心者でも分かる基本と使い方ガイド共起語・同意語・対義語も併せて解説!
533viws
csvダウンロードとは?初心者が今すぐ使える基本ガイド共起語・同意語・対義語も併せて解説!
512viws
sha256とは?初心者が知るべき暗号ハッシュの基礎と使い道共起語・同意語・対義語も併せて解説!
492viws
googleドキュメントとは?初心者が今日から使いこなす基本ガイド共起語・同意語・対義語も併せて解説!
483viws

新着記事

インターネット・コンピュータの関連記事