fpkmとは？初心者でもわかるRNA-seqの基本指標ガイド共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

はじめに

「fpkm（エフピーケーエム）とは、RNA-seqのデータを読み解くための基本的な指標のひとつです。正式名称は「Fragments Per Kilobase of transcript per Million mapped reads」で、日本語では「遺伝子長あたりの断片数を百万に正規化した値」と説明されます。この記事では中学生にも分かるよう、用語の意味と使い方を丁寧に解説します。

fpkmとは何か

FPKMは、ある遺伝子がどれくらい発現しているかを数値で表す方法です。発現量は遺伝子の長さによって影響を受けるため、遺伝子長と全測定数で正規化します。これにより、長い遺伝子と短い遺伝子を同じ土俵で比較できるようになります。

どうやって計算するのか

基本的な考え方は以下のとおりです。Cはある遺伝子に割り当てられたフラグメント数、Lは遺伝子長（kb）、Nは測定全体のフラグメント数を百万単位で表した値です。式は FPKM = C / (L × N) です。例として、遺伝子Aに対してC=500、L=2.0kb、N=20（百万フラグメント）なら、FPKMは 500 / (2.0 × 20) = 12.5 となります。

FPKMとTPM、RPKMの違い

RNA-seqの発現量を表す指標にはRPKM、FPKM、TPMなどがあります。RPKMとFPKMは発現量を補正する考え方が似ていますが、計算の順序と比較の意図が異なります。TPMは、遺伝子ごとの占める割合を先に計算してから正規化する方法で、サンプル間の比較が安定します。そのため、現場の多くの解析ではTPMが好まれることが多いですが、FPKMを使うケースも多く、基礎を理解することは大切です。

FPKMを読むときの注意点

FPKMは「そのサンプル内での相対的な発現」を見る指標として有用です。ただし、サンプル間の直接比較には慎重さが必要です。リード数の違いやサンプル間の組成差、ライブラリ調整のばらつきが影響します。現代のデータ解析では、TPMの方が異なるサンプル間の比較に適しているとされることが多く、FPKMは補助的な指標として活用される場面も多いです。

実務での活用例

実データでは、まず各遺伝子のFPKMを計算してデータ表に並べます。条件ごとに比較を行い、差が大きい遺伝子を候補として抽出します。統計的検定と多重検定の補正を組み合わせて有意性を評価することが一般的です。初心者のうちは「大まかな傾向をつかむ」ことを目的として、FPKMを読み解く練習をすると良いでしょう。

参考表: 指標の比べ方

<th>指標

意味	特徴
FPKM	遺伝子長と全体の測定数で正規化した発現量	サンプル内の比較に適し、サンプル間比較は注意が必要
TPM	遺伝子ごとの割合を先に正規化	サンプル間比較が安定
RPKM	FPKMの別名、同様の発想	古い表現、現在はTPMが推奨される場面多

このように、FPKMはRNA-seqデータを解釈するうえで基本的な発現指標の一つです。初めは難しく感じるかもしれませんが、定義と計算の流れを理解すればデータを読み解く力が自然と身につきます。実務では、公式ドキュメントや信頼できる解説を参照しながら、実データで手を動かして練習するのが近道です。

fpkmの同意語

FPKM: 転写産物の長さ（キロベース換算）あたりに観測されるフラグメント数を、総マッピング済みリード数が百万になるように正規化した発現量を示す指標。ペアエンドデータではフラグメントを用いる点が特徴です。
RPKM: 転写産物の長さ（キロベース換算）あたりに観測されるリード数を、総マッピング済みリード数が百万になるように正規化した発現量を示す指標。主にシングルエンドデータで用いられることが多いです。

fpkmの対義語・反対語

生データ（Raw counts）: RNA-Seqの遺伝子ごとの元のカウント値。FPKMは正規化後の指標なので、対義語として最も直感的です。
未正規化カウント（Unnormalized counts）: 正規化されていない生のカウント値。FPKMの対比としてよく使われる概念です。
絶対発現量（Absolute expression）: 細胞内での転写産物の絶対量を示す指標。FPKMのような相対量の指標と対になるイメージです。
正規化なし（No normalization）: データを正規化していない状態。FPKMは正規化済みの指標です。
長さ補正なし（No length normalization）: 遺伝子長に対する補正を行わない指標。FPKMは遺伝子長補正を含んでいます。
ライブラリサイズ補正なし（No library-size normalization）: ライブラリサイズ（総リード数）による補正を行わない指標。FPKMはこの補正を含みます。
RPK（Reads Per Kilobase）: 遺伝子長で正規化する指標ですが、総リード数による補正を含まない点でFPKMとは異なります。長さ補正の一部を示す概念です。
TPM（Transcripts Per Million）: FPKMと同様の目的で使われる別の正規化指標。対義語ではないが、比較対象として挙げられることがあります。

fpkmの共起語

RPKM: Reads Per Kilobase of transcript per Million mapped reads の略。RNA-Seqデータで遺伝子発現を正規化する古い指標の一つ。転写長と総リード数を使ってカウントを補正する点がFPKMと共通するが、RPKMはFPKMの前身とも言われる用語です。
TPM: Transcripts Per Million の略。各サンプル内で転写物ごとに正規化した発現量の総和を100万にスケールする指標。サンプル間で比較しやすい特徴があり、FPKM/RPKMより解釈が直感的です。
RNA-Seq: 次世代シーケンシングを用いてRNAを測定する手法。発現量の定量にFPKMなどの正規化値が使われます。
正規化: データを比較可能にするための処理。リード数や転写長、サンプル間のライブラリサイズ差を調整します。
ライブラリサイズ: サンプルごとの総リード数（またはマップ済みリード数）を指します。正規化の基準として使われます。
転写産物: 転写物（トランスクリプト）。遺伝子の発現を表す基本的な単位です。
遺伝子発現: 遺伝子が転写されてどの程度の量で表現されているかの状態。FPKMの対象となる量です。
カウント: 観測されたリード数。発現量推定の基礎データです。
差次的発現解析: 条件間で遺伝子発現の差を統計的に検出する分析です。
DESeq2: Rのパッケージ。カウントデータを前提に差次的発現を検出する代表的なツールです。
edgeR: Rのパッケージ。カウントデータの分散をモデル化して差を検出します。
limma: Rのパッケージ。線形モデルを用いた差次的発現解析のフレームワークです。
Cuffdiff: Cufflinksツール群の一部で、FPKMを出力・比較する差次的発現解析ツールです。
Cufflinks: RNA-Seqデータのトランスクリプト発見・定量を行う古典的ツール群です。
アノテーション: GTF/GFFなどの遺伝子・転写産物の注釈ファイル。発現量の解釈に影響します。
マッピング率: リードがゲノム・転写物に正しく整列された割合。データ品質の指標です。
転写長: 転写産物の長さ。正規化の要素としてFPKMの分母に現れます。
バッチ効果: 実験条件の違いによる系統的な誤差。正規化や統計分析で補正します。
解析パイプライン: データの前処理から発現量推定・差次解析までの一連の手順です。

fpkmの関連用語

FPKM: Fragments Per Kilobase of transcript per Million mapped reads の略。RNA-Seqデータの発現量を、遺伝子長さ（kb）と総マップリード数（百万単位）で正規化した指標。ペアエンドデータのフラグメントを用いることが多く、サンプル間比較には注意が必要です。
RPKM: Reads Per Kilobase of transcript per Million mapped reads の略。FPKMの前身にあたる指標で、主にシングルエンドデータの長さ補正発現量として使われました。現在はFPKM/TPMが主流です。
TPM: Transcripts Per Million の略。サンプル内で総発現量を1,000,000に揃えて比較する発現量の指標。サンプル間の比較がFPKMより安定します。
CPM: Counts Per Million の略。生データのカウントをライブラリサイズで正規化した値。差次発現解析では通常カウントデータを用いますが、補助的な正規化指標として用いられることもあります。
Counts: 生データのリードカウント。遺伝子やトランスクリプトへマップされたリードの数のことです。
RSEM: RNA-Seq by Expectation-Maximization の略。発現量推定ツールで、FPKM/TPMや期待カウントを出力します。
Salmon: 高速な定量ツールで、TPMや推定カウントを出力します。
Kallisto: 軽量な定量ツールで、TPMと推定カウントを出力します。
Ballgown: トランスクリプトレベルの表現量をFPKM/TPMとして扱い、差次発現を評価するRパッケージです。
Cuffdiff: 旧Tuxedoスイートの一部。FPKMを使って条件間の発現差を検出しましたが、現在は推奨されません。
DESeq2: Rパッケージ。カウントデータを負の二項分布でモデル化し、サイズファクターで正規化して差次発現を検出します。
edgeR: Rパッケージ。カウントデータの差次発現分析を行い、分散パラメータを推定します。
limma: Rパッケージ。線形モデルに基づく差次発現解析。RNA-SeqにはVoom変換を用いて連続データとして扱います。
Normalization: 正規化。ライブラリサイズの差や遺伝子長の差を補正して、サンプル間で比較可能にします。
Library size: ライブラリサイズ。サンプル全体で測定された総リード数のこと。正規化の基準になります。
Fragment length: 断片長。ペアエンドデータの平均挿入長で、FPKM計算に影響します。
Gene length: 遺伝子の長さ。正規化の分母として使われます。
Effective length: 有効長。実際に検出される長さを反映した長さ。
log2(FPKM+1): FPKM値の対数変換。分布を安定させ、統計解析の前処理として用いられます。
GTF/GFF annotation: 遺伝子の位置・構造情報を含む注釈ファイル。長さ計算や遺伝子定義の基礎データになります。
Paired-end vs Single-end: ペアエンドは2つのリードで1つのフラグメントとして扱い、FPKM計算に影響します。
FDR: False Discovery Rate の略。多重検定補正後の有意性指標。