c-index・とは？初心者にも伝わる統計指標の基本と使い方共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

c-index（C-index）とは何か？

c-index は、予測モデルがどれだけ正しく「誰が早くイベントを起こすか」を予測できるかを測る指標です。英語では Concordance index と呼ばれ、主に生存分析と呼ばれるデータの分析でよく使われます。まずは結論として、c-index は 0 から 1 の間の値を取り、1 に近いほど良い予測をしていることを意味します。

たとえば医療の研究で、患者さんの生存期間を予測するモデルがあるとします。モデルが長生きする人を高く評価して、実際に長生きした人が多ければ c-index は高くなります。反対に、低い予測と実際の結果が多く食い違うと、c-index は 0.5 に近づきます。0.5 はランダムと同じ程度の精度という意味です。

なぜ c-index が役立つのか

生存データには「いつかは起こるイベント」があり、途中で観測が終わる（打ち切り）ことが多いのが特徴です。c-index はそのようなデータでも、予測の順序を評価できる点が魅力です。単純な正解率（ある人が病気になるかならないか）だけでは、時期の情報をうまく活かせません。c-index は時間の経過に沿った情報を含むデータでも、モデルの

c-indexの関連サジェスト解説

harrell's c-index とは: harrells c-index とは、生存分析で使われる予測精度の指標です。生存分析は“いつ”イベントが起きるかを予測する統計の分野で、検査データの欠測（センサリング）にも対応します。HarrellのC-index は、予測スコアと実際のイベントの順序がどれだけ一致しているかを判断する指標です。計算のイメージは、全ての比較可能なペアを順に見ていくことです。二人の患者iとjを比べ、イベントがどちらか早く起きたかを見ます。もし予測スコアが高い方の人が早くイベントを経験していればそのペアは「一致」、逆なら「不一致」と数えます。すべてのペアを平均した値がC-indexになります。値は0.5から1.0の範囲を取り、1.0に近いほど予測が正確、0.5は偶然と同じと解釈します。センサリング（観察が途中で終わること）を含むデータでは、予測とイベントがはっきり分からないペアが出てきます。その場合、利用可能な情報だけを使ってペアを定義します。HarrellのC-index はこのような打ち切りをある程度考慮して値を出します。解釈と使いどころとしては、C-index の値は0.5〜1.0の範囲で、0.75なら約75%のペアが予測と実際の順序と一致していると考えられます。AUC（ROC曲線の下の面積）と似ていますが、時間を伴う生存データに適用できる点が大きな違いです。実務では、どのモデルを比較するか、フォローアップ期間やセンサリングの割合によってC-indexが変わることを念頭に置く必要があります。計算や実装はRやPythonのライブラリで行えることが多く、データの特性をよく確認したうえで解釈することが大切です。要点をまとめると、HarrellのC-index は生存分析の予測精度を直感的に表す指標で、0.5〜1.0の範囲で解釈します。適切に使えば、モデル比較や臨床研究の有用性評価に役立ちますが、データの欠損や追跡期間の影響には注意が必要です。

c-indexの同意語

c-index: 生存分析や予測モデルの性能を評価する指標。予測値と実際の事象の順位がどれだけ一致しているかを示す指標。
コンコーダンス指数: 予測と実測の順位の一致度を表す指標。生存分析で広く用いられ、モデルの予測力を測る基本指標の一つ。
HarrellのC統計量: Harrellが提案したC統計量。予測リスクと観測データの一致性を評価する指標で、モデルの判別能力を示す。
C統計量: C指標とも呼ばれ、モデルが高リスクを高く予測する能力を示す指標。順位の正確さを評価する。
Concordance index: 英語名。予測値と実際の事象の一致度を測る指標。生存分析の標準的な評価指標として使われる。
一致度指数: 予測と実測の一致の程度を示す指標の総称。C-index の日本語訳として用いられることがある。
一致性指標: 予測と事象の一致性を測る指標の総称。C-index の別表現として使われる場合がある。
コンコーダンス指標: データの順位の整合性を評価する指標。C-index の別名として用いられることがある。

c-indexの対義語・反対語

不一致指数: c-indexがコンコーダンス（一致）を測る指標である場合、その対義語として使われることがある。値が大きいほどデータの一致度が低く、不整合が多いことを示します。
矛盾指数: データ間の矛盾の度合いを数値化する指標。高い値ほど予測と現実が反対の結果を示すことを意味します。
非一致性指数: データの一貫性が欠如している程度を示す指標。高いほど一致度が低いことを示します。
不整合指数: データ内の整合性の欠如を示す指標。高い値はデータの整合性が薄いことを意味します。
不適合指数: モデルとデータの適合性の悪さを表す指標。高いほど予測が現実と合わない度合いが大きいことを示します。
反コンコーダンス指数: コンコーダンスの反対の性質を測る指標。予測と実データの一致が逆の傾向を示す度合いを数値化します。
低一致率指数: 一致率が低い状態を評価する指標。高いほど予測と現実の一致が乏しいことを示します。

c-indexの共起語

Concordance index: 生存分析などで使われる、予測値と実測値の順序がどれだけ正しく一致するかを表す指標。値は0.0〜1.0の範囲で、1.0に近いほど高い判別力を示します。
Harrell's C-index: Harrellが提案したC-indexの実装です。生存データの予測力を評価する代表的な一致指数のひとつとして用いられます。
C-index: 予測モデルの判別力を測る指標。観測ペアにおいて、予測の順序と実際の事象順序がどれだけ一致するかを0.5〜1.0の範囲で示します。
C-statistic: C-indexの別名。ROC曲線と関連づけて解釈されることが多い指標です。
AUC: Area Under the Curveの略。ROC曲線の下の面積で、予測の総合的な判別力を表します。C-indexと近い関係にあります。
ROC curve: 受信者動作特性曲線。感度と偽陽性率の関係を図示する曲線で、AUCやC-indexの解釈に役立ちます。
ROC曲線: ROC curveの日本語表現。AUCやC-indexの理解に用いられる曲線です。
生存分析: 時間とともに発生するイベントを扱う統計手法。C-indexはこの分野のモデル評価でよく使われます。
生存データ: イベント発生時間と打ち切りを含むデータ。C-indexを用いて予測力を評価します。
判別性能: モデルが正しく事象を区別できる能力の総称。C-indexはこの性能を数値化します。
判別力: 予測結果の正確さ・順序付けの強さを表す概念。C-indexの解釈にも直結します。
内部検証: 訓練データ内で行う検証。過学習の有無を確認し、C-indexの安定性を評価します。
外部検証: 訓練データとは別のデータで行う検証。汎化能力を測る重要な手法です。
信頼区間: 推定値に対する不確実性の範囲。C-indexの信頼区間を報告する際に用いられます。
ブートストラップ: データを再標本して統計量の分布を推定する手法。C-indexの信頼区間の推定にも使われます。
Somers' D: 順位相関を表す指標。C-indexと密接に関連しており、予測の順序関係を評価します。
Dxy: Somers' Dの一部で、予測と結果の関連を示す指標。C-indexとの変換関係があります。
Somers' Dxy: Somers' Dの具体的な表現のひとつ。C-indexと関連付けて解釈されます。
適合度: 予測確率と実際の発生確率がどれだけ一致するかの度合い。Calibrationsと併せてモデル評価で使われます。
適合度プロット: 予測確率の適合度を視覚化するグラフ。モデルのキャリブレーションを評価するのに役立ちます。
予測モデル: 将来の出来事を予測するためのモデル。
リスク予測モデル: 特定イベントの発生リスクを推定するモデル。C-indexで評価されることが多いです。
訓練データ: モデルを学習させるためのデータセット。
検証データ: モデル評価用のデータセット。C-indexの信頼性を検証します。

c-indexの関連用語

c-index: 生存分析で、予測リスクの順位と実際のイベント発生の順序がどれだけ一致するかを示す指標。予測値が高いほど早くイベントが起きる確率をペアごとに比較して算出する。0.5はランダム、1.0は完全一致。
Concordance index: c-indexの別名。予測値の順位と実際の生存順序の一致度を表す指標。
Harrell's C-index: 生存データのペアを用いて算出する、広く使われる実装の一つ。欠測データや結び目の取り扱いをライブラリごとに調整する。
Uno's C-index: 検閲データの偏りを補正するため、Inverse Probability of Censoring Weighting (IPCW) を用いる改良版のc-index。検閲が多いデータでのバイアスを減らすことを目的。
Time-dependent C-index: 特定の時点tにおけるC-index。時間とともにモデルの判別力がどう変わるかを評価するために用いる。
C-statistic / AUC: 二値分類のROC曲線下面積（AUC）と同義の指標。生存分析の文脈ではc-indexと連携して解釈されることが多い。
Concordant pair: 予測リスクの順位と実際のイベント順序が一致するペアのこと。
Discordant pair: 予測リスクの順位と実際のイベント順序が逆になるペアのこと。
Tied pair: 予測値が同じ、またはイベント時刻が同じで比較不能なペアのこと。
Right censoring / Censored data: イベントが観測されず途中で打ち切られたデータ。c-indexの計算にはこの打ち切りを適切に扱う必要がある。
Survival analysis: 生存時間データを扱う統計分野。c-index はこの分野のモデル評価指標の一つ。
Cox proportional hazards model: 生存時間データで広く使われる回帰モデル。予測性能を評価する際にc-indexがよく用いられる。
Calibration vs discrimination: キャリブレーションは予測確率の正確さ、判別力は順位の正しさを測る。c-indexは判別力の評価に特化し、校正は別の指標で行うことが多い。
Brier score: 予測確率の誤差を評価する指標。時間依存版もあり、校正と判別の両方を同時に評価できる場合がある。
IPCW (Inverse Probability of Censoring Weighting): 検閲の偏りを補正する重み付け手法。Uno's C-index などで用いられる。
Bootstrap confidence interval: ブートストラップ法でc-indexの信頼区間を推定する方法。サンプル再抽出を繰り返して不確実性を評価。
Internal validation: データ内部での検証（例：ブートストラップ、クロスバリデーション）によりc-indexの安定性を確認。
External validation: 別データセットを用いてc-indexの一般化可能性を評価。
Rパッケージ: survcomp / concordance.index: Rでc-indexを計算・推定する代表的なパッケージと関数。
Pythonパッケージ: lifelines.concordance_index: Pythonの lifelines ライブラリでc-indexを計算する代表的な関数。
Pythonパッケージ: scikit-survival.concordance_index: Pythonの scikit-survival ライブラリでのc-index計算機能。
Time-dependent ROC / AUC(t): 特定の時間点におけるROC曲線とAUC。c-indexと補完的に用いられることがある。
Dynamic / time-varying C-index: 時間の経過とともに変化する判別力を評価する拡張版。
Limitations of c-index: 判別力の情報に偏りがちで、キャリブレーションを評価しない、検閲の扱いに敏感、データ分布に依存する点などの限界がある。
Concordance probability estimates (CPE): c-indexと同様の概念で、イベント発生順序を予測する確率の推定を指す別表現。