deseq2・とは?初心者向けにやさしく解説する使い方ガイド共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
deseq2・とは?初心者向けにやさしく解説する使い方ガイド共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


はじめに

このページでは deseq2 とは何か、どう使うのかを初心者向けに解説します。DESeq2はRNA-Seqデータの差次的発現を検出するための統計検定を行うツールです。生物学の研究で、薬の影響、病気の状態、組織間の違いなどを比較する際に役立ちます。

deseq2とは?

DESeq2はR言語とBioconductorに含まれるパッケージで、カウントデータを対象にした統計モデルを使います。データの分散が条件やサンプル間で異なることを考慮して、差の有無を検定します。

この解説では、難しい数式を避け、基本的な考え方と実際の使い方を順を追って紹介します。

DESeq2の目的と適用場面

主な目的は、「条件Aと条件Bで発現が有意に異なる遺伝子」を見つけることです。病気のモデルと対照、薬の処方前後、組織の発現差など、さまざまな比較に適しています。

仕組みと前提

DESeq2はカウントデータを使い、遺伝子ごとに発現量の差を検出します。データには<span>観察ノイズがあり、小さなサンプル数でも安定した結論を出すよう設計されています。代表的な出力には log2FoldChange(発現量の比の対数)、p値padj(多重検定補正後の値)などがあります。

使い方の流れ(基本ワークフロー)

以下は初心者向けの基本的な流れです。各段階で出力を確認し、適切にデータを整えることが重要です。

ステップ説明
1. データ準備遺伝子ごとのカウントデータとサンプル情報を揃えます。サンプル情報には条件列が含まれている必要があります
2. デザインの設定比較対象となる条件を決め、デザイン式を決定します。例:「condition」を使うなど。
3. DESeqデータセット作成DESeqDataSetFromMatrix のような関数でデータセットを作成します。
4. DESeqを実行DESeq関数を呼び出して差の検定を実行します。結果は各遺伝子ごとに統計値が出ます
5. 結果の解釈結果オブジェクトから log2FoldChangepadj(調整済みp値)を確認します。
6. 可視化と報告MAプロットやヒートマップなどの図を作成して、差のある遺伝子を視覚的に確認します。

出力と読み方のポイント

DESeq2の主な出力には、log2FoldChange(発現の変化の大きさ)、p値padj(多重検定補正後の値)などがあります。padjが0.05以下なら「有意に差がある」と判断されることが多いですが、研究デザインによって閾値は変わります。

注意点とよくある誤解

データの品質やサンプル数が少ないと、結果は揺れやすくなります。低サンプルのときは特にデータの前処理と適切な正規化が重要です。また、DESeq2は「差があるか」を検定するだけで、機能的な意味を自動で説明してくれるわけではありません。

まとめ

本記事の要点は以下の通りです。DESeq2はRNA-Seqの差次的発現を検出する強力なツールで、適切なデータ準備とデザイン設計が鍵になります。初心者は公式ドキュメントの手順を参考に、まずは小さなデータセットで流れを掴むとよいでしょう。

よく使われる用語の定義

log2FoldChange
2つの条件間での発現量の比の対数(2を底とする)です。値が正なら条件Aの方が高く、負なら条件Bの方が高いことを意味します。
padj
多重検定を補正したp値。多数の遺伝子を同時に検定する場合に用います。

deseq2の同意語

DESeq2
RNA-seqデータの差次発現解析を行うBioconductorのRパッケージ。負の二項分布を前提とした正規化と検定を提供します。
DESeq
DESeqの旧バージョン。差次発現解析の前身的パッケージで、現在はDESeq2が主流とされています。
DESeq2パッケージ
DESeq2という名称のパッケージそのもの。Bioconductorで提供され、RNA-seqデータの発現差を検出します。
BioconductorのDESeq2
Bioconductorに所属するDESeq2パッケージのこと。R環境で差次発現解析を実施します。
RNA-seq差次発現解析ツール
RNA-seqデータの差次発現を解析するツールの総称の一つで、DESeq2が代表的な例です。
Differential expression analysis with DESeq2
DESeq2を用いた差次発現解析を指す英語表現。文献やチュートリアルでよく使われます。
DESeq2を用いた発現差検出
DESeq2を使って、条件間で発現レベルの差を検出する解析作業を指します。

deseq2の対義語・反対語

非DESeq2ベースの分析
DESeq2を使わないでRNA-Seqデータの差分発現を解析する別の手法・ツールの総称。
edgeR
DESeq2の代わりに用いられることが多いRNA-Seqの差分発現分析パッケージ。統計モデルや正規化方法がDESeq2とは異なる。
limma(voom)
limma パッケージを用いた差分発現分析。RNA-Seqデータにも voom 変換を適用して扱う方法。
TMM正規化
edgeRで用いられる正規化手法。DESeq2の正規化とは異なるアプローチで、サンプル間の比較を安定させます。
RNA-Seq以外の差分発現分析
マイクロアレイなどRNA-Seq以外のデータで差分発現を解析する手法のこと。

deseq2の共起語

DESeq2
差次発現解析を行うR/Bioconductorパッケージ。
R
統計解析用のプログラミング言語
Bioconductor
R向けの生物情報学パッケージリポジトリ
RNA-seq
RNAシーケンスデータ。遺伝子発現を測る代表的データ形式。
RNA-Seq
RNA-seqの別表記。
count matrix
サンプルごとに遺伝子のカウントを並べた行列データ。
カウントデータ
遺伝子ごとの読み取り数の生データ。
raw counts
正規化の生データのカウント。
normalized counts
正規化後のカウントデータ。
size factors
ライブラリサイズ差を補正するスケール因子。
サイズ因子
Size factorの日本語表現。
normalization
データ間の比較を妥当化する前処理。
正規化
データの比較を可能にする処理。
dispersion
遺伝子ごとに推定される分散パラメータ。過分散を扱う指標。
分散
データのばらつきの程度。
negative binomial
負の二項分布。DESeq2の基礎モデル
負の二項分布
DESeq2が仮定するデータの分布。
overdispersion
過分散の英語表現。
DESeqDataSetFromMatrix
行列データからDESeq用データセットを作成する関数。
DESeq
DESeq2の主処理関数。差次発現の推定を実行。
DESeqDataSet
DESeq2のデータセットオブジェクト。
design formula
実験デザインを表す設計式(例: ~ condition + batch)。
設計式
設計を表す式の日本語表現。
experimental design
実験の条件・要因の組み合わせ。
実験デザイン
どの条件を比較するか決める設計。
バッチ効果
実験ロットなどによる系統的ばらつき。
batch effects
バッチ効果の英語表現。
contrast
比較したい条件間の対比設定。
対比
治療群と対照群などの比較設定。
results
差次発現の検出結果を格納・取得する機能。
結果の抽出
検出された遺伝子のリストを取り出す作業。
log2 fold change
発現の対数2倍量の変化。
log2FC
log2 fold changeの略称。
p-value
統計的有意性を評価するp値。
調整済みp値
複数検定を補正したp値。
adjusted p-value
補正後p値の英語表現。
FDR
偽発見率、複数検定補正後の有意性指標。
偽発見率
false discovery rateの日本語表現。
Benjamini-Hochberg
多重検定補正の代表的手法。
BH correction
BH補正の英語表現。
Wald検定
係数が0である仮説を検定する手法。
Wald test
Wald検定の英語表現。
likelihood ratio test
尤度比検定(LRT)。
LRT
Likelihood Ratio Testの略。
plotMA
MAプロットを描く関数。
MAプロット
平均発現量と差を可視化するグラフ。
plotPCA
PCAプロットを描く関数。
PCAプロット
成分分析の結果を図示するグラフ。
plotCounts
特定遺伝子のカウントを可視化する関数。
カウントの可視化
遺伝子別カウントを視覚化。
rlog
正則化対数変換(rlog)。
variance stabilizing transformation
分散安定化変換(VST)。
VST
分散安定化変換の略。
resultsNames
DESeq2の結果名を取得する関数。
design matrix
デザイン行列。設計情報を数値化したもの。
設計行列
設計情報を行列として表現したもの。
QC
品質管理。データ前処理段階のチェック項目。
quality control
品質管理の英語表現。
annotation
遺伝子アノテーション。遺伝子IDと機能の対応づけ。

deseq2の関連用語

DESeq2
RNA-seqデータに対する差次表現解析を行うR/Bioconductorパッケージ。遺伝子ごとの発現差を検出する統計モデルと便利な関数群を提供します。
Bioconductor
R用の生物情報学パッケージの公式リポジトリ。DESeq2はこのリポジトリから提供されます。
RNA-Seq
次世代シーケンシングを用いて得られるRNAの発現量データ。発現差の検出対象となるデータ形式です。
counts matrix
遺伝子行×サンプル列の生データ(カウント)。DESeq2の入力データの基本形です。
DESeqDataSetFromMatrix
DESeq2で分析用データセットを作成する関数。counts、colData、designを入力として受け取ります。
colData
サンプル情報を格納するデータフレーム。条件、バッチ、サンプル名などを含みます。
design formula
実験設計を表すモデル式。例: ~ condition など、差次解析のモデル構築に使われます。
size factor normalization
サンプル間のライブラリサイズ差を補正する正規化。DESeq2の基本処理の一部です。
median of ratios normalization
DESeq2で用いられる正規化法。各遺伝子の幾何平均に対する比の中央値をサイズ因子として推定します。
geometric mean normalization
幾何平均を用いた正規化の概念。サイズ因子推定の基盤となる考え方です。
baseMean
全サンプルの発現データに基づく、遺伝子レベルの平均発現量(正規化前後で表現されることが多い)。
dispersion
遺伝子ごとの分散。データの過 dispersionを説明するために推定されます。
gene-wise dispersion
遺伝子ごとに推定される分散。DESeq2の統計モデルの核となる要素です。
shrinkage of log2 fold changes
log2 fold change(LFC)の推定を安定化させる縮小処理。信頼性の高い差次推定を目指します。
lfcShrink
DESeq2でLFCを縮小する関数。ベイズ的手法や正規化アプローチでLFCの分散を低減します。
log2 fold change (LFC)
発現量の変化を対数2で表した指標。大きな変化を検出する目安となります。
results()
特定の比較の差次表現解析結果(p値、padj、LFCなど)を出力する関数。
contrast
比較対象の条件を指定して、特定のペアの比較を行う際の指定方法。
Wald test
Wald検定。DESeq2のデフォルトの差次検定として用いられます。
Likelihood ratio test (LRT)
尤度比検定。複数条件のモデル比較などに使用されます。
p-value
統計的有意性を示す確率値。
padj
多重検定補正後のp値(FDR調整済み)。
false discovery rate (FDR)
多重検定の誤検出を抑える指標。結果の信頼性を評価します。
Benjamini-Hochberg (BH) procedure
FDRを制御する標準的な補正法。padjを計算する際に用いられます。
independent filtering
発現レベルが低い遺伝子を結果から除外して検出力を向上させる前処理。
plotCounts
特定遺伝子のカウントをサンプルごとに可視化する関数。
plotMA
MAプロットを描く関数。発現差と平均発現量の関係を視覚化します。
plotPCA
主成分分析の結果を可視化する関数。サンプル間の関係性を把握します。
vst
Variance Stabilizing Transformation。データの分散を安定化させる変換。
rlog
Regularized log transformation。低カウントデータの扱いを改善します。
assay
SummarizedExperimentオブジェクトのデータスロット。countsやnormalized countsなどを格納。
assayNames
SummarizedExperimentに格納されているアッセイ名の一覧。
Cook's distance
影響度の大きいデータ点を識別する指標。アウトライヤの診断に役立ちます。
outliers
統計モデルから外れたデータ点。DESeq2はアウトライヤの検出・扱いをサポートします。
prefiltering
分析前に発現の低い遺伝子を除外して検出力を向上させる前処理。
resultsNames
results()で取得できる比較名の一覧を返す関数。どの比較を出力できるかを確認します。
experimental design
実験の設計。どの条件で比較するかを決め、設計式を通じてモデル化します。
result table
差次表現解析の結果を遺伝子ごとにまとめた表。LFC、p値、padj、baseMeanなどを含みます。

deseq2のおすすめ参考サイト


学問の人気記事

トルクの単位・とは?初心者向けに徹底解説!なぜ単位が違うのかまで分かる共起語・同意語・対義語も併せて解説!
2175viws
引用・参考文献とは?初心者でもわかる使い方とポイント解説共起語・同意語・対義語も併せて解説!
850viws
ensureとは?初心者にもわかる意味と使い方を徹底解説共起語・同意語・対義語も併せて解説!
723viws
座標計算・とは?初心者向けガイドで完全マスター共起語・同意語・対義語も併せて解説!
701viws
絶縁抵抗値とは?初心者でも分かる測定の基本と安全のコツ共起語・同意語・対義語も併せて解説!
589viws
示差走査熱量測定とは?初心者向けガイドで学ぶ基本と実験のポイント共起語・同意語・対義語も併せて解説!
567viws
no・とは?初心者にもわかる意味と使い方ガイド共起語・同意語・対義語も併せて解説!
565viws
k型熱電対とは?初心者にも分かる基礎解説と活用事例共起語・同意語・対義語も併せて解説!
542viws
ナイロン樹脂とは?初心者にもわかる基本と用途ガイド共起語・同意語・対義語も併せて解説!
527viws
大辞林とは?初心者にもわかる日本語辞典の使い方と特徴共起語・同意語・対義語も併せて解説!
515viws
welchのt検定とは?不等分散のデータを比較する統計手法をやさしく解説共起語・同意語・対義語も併せて解説!
486viws
励磁回路とは?初心者にもわかる基礎解説と仕組みの全体像共起語・同意語・対義語も併せて解説!
474viws
論述問題・とは?初心者にも分かる解説と解き方のコツ共起語・同意語・対義語も併せて解説!
469viws
summarize・とは?初心者向け解説と使い方のコツ共起語・同意語・対義語も併せて解説!
463viws
気圧の単位とは?中学生にもわかるPa・atm・bar・Torrの違いと換算ガイド共起語・同意語・対義語も併せて解説!
455viws
穴加工・とは?初心者が知っておく基本と現場での活用ポイント共起語・同意語・対義語も併せて解説!
433viws
摘要とは?初心者にも分かる意味と書き方ガイド共起語・同意語・対義語も併せて解説!
418viws
r134aとは?初心者向けガイド|エアコン冷媒の基本をやさしく解説共起語・同意語・対義語も併せて解説!
418viws
洗浄バリデーションとは?初心者が押さえる基本と実務のポイント共起語・同意語・対義語も併せて解説!
416viws
100g・とは?初心者が今すぐ知っておきたい基本と使い方共起語・同意語・対義語も併せて解説!
379viws

新着記事

学問の関連記事