

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
はじめに
このページでは deseq2 とは何か、どう使うのかを初心者向けに解説します。DESeq2はRNA-Seqデータの差次的発現を検出するための統計検定を行うツールです。生物学の研究で、薬の影響、病気の状態、組織間の違いなどを比較する際に役立ちます。
deseq2とは?
DESeq2はR言語とBioconductorに含まれるパッケージで、カウントデータを対象にした統計モデルを使います。データの分散が条件やサンプル間で異なることを考慮して、差の有無を検定します。
この解説では、難しい数式を避け、基本的な考え方と実際の使い方を順を追って紹介します。
DESeq2の目的と適用場面
主な目的は、「条件Aと条件Bで発現が有意に異なる遺伝子」を見つけることです。病気のモデルと対照、薬の処方前後、組織の発現差など、さまざまな比較に適しています。
仕組みと前提
DESeq2はカウントデータを使い、遺伝子ごとに発現量の差を検出します。データには<span>観察ノイズがあり、小さなサンプル数でも安定した結論を出すよう設計されています。代表的な出力には log2FoldChange(発現量の比の対数)、p値、padj(多重検定補正後の値)などがあります。
使い方の流れ(基本ワークフロー)
以下は初心者向けの基本的な流れです。各段階で出力を確認し、適切にデータを整えることが重要です。
| ステップ | 説明 |
|---|---|
| 1. データ準備 | 遺伝子ごとのカウントデータとサンプル情報を揃えます。サンプル情報には条件列が含まれている必要があります。 |
| 2. デザインの設定 | 比較対象となる条件を決め、デザイン式を決定します。例:「condition」を使うなど。 |
| 3. DESeqデータセット作成 | DESeqDataSetFromMatrix のような関数でデータセットを作成します。 |
| 4. DESeqを実行 | DESeq関数を呼び出して差の検定を実行します。結果は各遺伝子ごとに統計値が出ます。 |
| 5. 結果の解釈 | 結果オブジェクトから log2FoldChange、padj(調整済みp値)を確認します。 |
| 6. 可視化と報告 | MAプロットやヒートマップなどの図を作成して、差のある遺伝子を視覚的に確認します。 |
出力と読み方のポイント
DESeq2の主な出力には、log2FoldChange(発現の変化の大きさ)、p値、padj(多重検定補正後の値)などがあります。padjが0.05以下なら「有意に差がある」と判断されることが多いですが、研究デザインによって閾値は変わります。
注意点とよくある誤解
データの品質やサンプル数が少ないと、結果は揺れやすくなります。低サンプルのときは特にデータの前処理と適切な正規化が重要です。また、DESeq2は「差があるか」を検定するだけで、機能的な意味を自動で説明してくれるわけではありません。
まとめ
本記事の要点は以下の通りです。DESeq2はRNA-Seqの差次的発現を検出する強力なツールで、適切なデータ準備とデザイン設計が鍵になります。初心者は公式ドキュメントの手順を参考に、まずは小さなデータセットで流れを掴むとよいでしょう。
よく使われる用語の定義
- log2FoldChange
- 2つの条件間での発現量の比の対数(2を底とする)です。値が正なら条件Aの方が高く、負なら条件Bの方が高いことを意味します。
- padj
- 多重検定を補正したp値。多数の遺伝子を同時に検定する場合に用います。
deseq2の同意語
- DESeq2
- RNA-seqデータの差次発現解析を行うBioconductorのRパッケージ。負の二項分布を前提とした正規化と検定を提供します。
- DESeq
- DESeqの旧バージョン。差次発現解析の前身的パッケージで、現在はDESeq2が主流とされています。
- DESeq2パッケージ
- DESeq2という名称のパッケージそのもの。Bioconductorで提供され、RNA-seqデータの発現差を検出します。
- BioconductorのDESeq2
- Bioconductorに所属するDESeq2パッケージのこと。R環境で差次発現解析を実施します。
- RNA-seq差次発現解析ツール
- RNA-seqデータの差次発現を解析するツールの総称の一つで、DESeq2が代表的な例です。
- Differential expression analysis with DESeq2
- DESeq2を用いた差次発現解析を指す英語表現。文献やチュートリアルでよく使われます。
- DESeq2を用いた発現差検出
- DESeq2を使って、条件間で発現レベルの差を検出する解析作業を指します。
deseq2の対義語・反対語
- 非DESeq2ベースの分析
- DESeq2を使わないでRNA-Seqデータの差分発現を解析する別の手法・ツールの総称。
- edgeR
- DESeq2の代わりに用いられることが多いRNA-Seqの差分発現分析パッケージ。統計モデルや正規化方法がDESeq2とは異なる。
- limma(voom)
- limma パッケージを用いた差分発現分析。RNA-Seqデータにも voom 変換を適用して扱う方法。
- TMM正規化
- edgeRで用いられる正規化手法。DESeq2の正規化とは異なるアプローチで、サンプル間の比較を安定させます。
- RNA-Seq以外の差分発現分析
- マイクロアレイなどRNA-Seq以外のデータで差分発現を解析する手法のこと。
deseq2の共起語
- DESeq2
- 差次発現解析を行うR/Bioconductorパッケージ。
- R
- 統計解析用のプログラミング言語。
- Bioconductor
- R向けの生物情報学パッケージリポジトリ。
- RNA-seq
- RNAシーケンスデータ。遺伝子発現を測る代表的データ形式。
- RNA-Seq
- RNA-seqの別表記。
- count matrix
- サンプルごとに遺伝子のカウントを並べた行列データ。
- カウントデータ
- 遺伝子ごとの読み取り数の生データ。
- raw counts
- 未正規化の生データのカウント。
- normalized counts
- 正規化後のカウントデータ。
- size factors
- ライブラリサイズ差を補正するスケール因子。
- サイズ因子
- Size factorの日本語表現。
- normalization
- データ間の比較を妥当化する前処理。
- 正規化
- データの比較を可能にする処理。
- dispersion
- 遺伝子ごとに推定される分散パラメータ。過分散を扱う指標。
- 分散
- データのばらつきの程度。
- negative binomial
- 負の二項分布。DESeq2の基礎モデル。
- 負の二項分布
- DESeq2が仮定するデータの分布。
- overdispersion
- 過分散の英語表現。
- DESeqDataSetFromMatrix
- 行列データからDESeq用データセットを作成する関数。
- DESeq
- DESeq2の主処理関数。差次発現の推定を実行。
- DESeqDataSet
- DESeq2のデータセットオブジェクト。
- design formula
- 実験デザインを表す設計式(例: ~ condition + batch)。
- 設計式
- 設計を表す式の日本語表現。
- experimental design
- 実験の条件・要因の組み合わせ。
- 実験デザイン
- どの条件を比較するか決める設計。
- バッチ効果
- 実験ロットなどによる系統的ばらつき。
- batch effects
- バッチ効果の英語表現。
- contrast
- 比較したい条件間の対比設定。
- 対比
- 治療群と対照群などの比較設定。
- results
- 差次発現の検出結果を格納・取得する機能。
- 結果の抽出
- 検出された遺伝子のリストを取り出す作業。
- log2 fold change
- 発現の対数2倍量の変化。
- log2FC
- log2 fold changeの略称。
- p-value
- 統計的有意性を評価するp値。
- 調整済みp値
- 複数検定を補正したp値。
- adjusted p-value
- 補正後p値の英語表現。
- FDR
- 偽発見率、複数検定補正後の有意性指標。
- 偽発見率
- false discovery rateの日本語表現。
- Benjamini-Hochberg
- 多重検定補正の代表的手法。
- BH correction
- BH補正の英語表現。
- Wald検定
- 係数が0である仮説を検定する手法。
- Wald test
- Wald検定の英語表現。
- likelihood ratio test
- 尤度比検定(LRT)。
- LRT
- Likelihood Ratio Testの略。
- plotMA
- MAプロットを描く関数。
- MAプロット
- 平均発現量と差を可視化するグラフ。
- plotPCA
- PCAプロットを描く関数。
- PCAプロット
- 主成分分析の結果を図示するグラフ。
- plotCounts
- 特定遺伝子のカウントを可視化する関数。
- カウントの可視化
- 遺伝子別カウントを視覚化。
- rlog
- 正則化対数変換(rlog)。
- variance stabilizing transformation
- 分散安定化変換(VST)。
- VST
- 分散安定化変換の略。
- resultsNames
- DESeq2の結果名を取得する関数。
- design matrix
- デザイン行列。設計情報を数値化したもの。
- 設計行列
- 設計情報を行列として表現したもの。
- QC
- 品質管理。データ前処理段階のチェック項目。
- quality control
- 品質管理の英語表現。
- annotation
- 遺伝子アノテーション。遺伝子IDと機能の対応づけ。
deseq2の関連用語
- DESeq2
- RNA-seqデータに対する差次表現解析を行うR/Bioconductorパッケージ。遺伝子ごとの発現差を検出する統計モデルと便利な関数群を提供します。
- Bioconductor
- R用の生物情報学パッケージの公式リポジトリ。DESeq2はこのリポジトリから提供されます。
- RNA-Seq
- 次世代シーケンシングを用いて得られるRNAの発現量データ。発現差の検出対象となるデータ形式です。
- counts matrix
- 遺伝子行×サンプル列の生データ(カウント)。DESeq2の入力データの基本形です。
- DESeqDataSetFromMatrix
- DESeq2で分析用データセットを作成する関数。counts、colData、designを入力として受け取ります。
- colData
- サンプル情報を格納するデータフレーム。条件、バッチ、サンプル名などを含みます。
- design formula
- 実験設計を表すモデル式。例: ~ condition など、差次解析のモデル構築に使われます。
- size factor normalization
- サンプル間のライブラリサイズ差を補正する正規化。DESeq2の基本処理の一部です。
- median of ratios normalization
- DESeq2で用いられる正規化法。各遺伝子の幾何平均に対する比の中央値をサイズ因子として推定します。
- geometric mean normalization
- 幾何平均を用いた正規化の概念。サイズ因子推定の基盤となる考え方です。
- baseMean
- 全サンプルの発現データに基づく、遺伝子レベルの平均発現量(正規化前後で表現されることが多い)。
- dispersion
- 遺伝子ごとの分散。データの過 dispersionを説明するために推定されます。
- gene-wise dispersion
- 遺伝子ごとに推定される分散。DESeq2の統計モデルの核となる要素です。
- shrinkage of log2 fold changes
- log2 fold change(LFC)の推定を安定化させる縮小処理。信頼性の高い差次推定を目指します。
- lfcShrink
- DESeq2でLFCを縮小する関数。ベイズ的手法や正規化アプローチでLFCの分散を低減します。
- log2 fold change (LFC)
- 発現量の変化を対数2で表した指標。大きな変化を検出する目安となります。
- results()
- 特定の比較の差次表現解析結果(p値、padj、LFCなど)を出力する関数。
- contrast
- 比較対象の条件を指定して、特定のペアの比較を行う際の指定方法。
- Wald test
- Wald検定。DESeq2のデフォルトの差次検定として用いられます。
- Likelihood ratio test (LRT)
- 尤度比検定。複数条件のモデル比較などに使用されます。
- p-value
- 統計的有意性を示す確率値。
- padj
- 多重検定補正後のp値(FDR調整済み)。
- false discovery rate (FDR)
- 多重検定の誤検出を抑える指標。結果の信頼性を評価します。
- Benjamini-Hochberg (BH) procedure
- FDRを制御する標準的な補正法。padjを計算する際に用いられます。
- independent filtering
- 発現レベルが低い遺伝子を結果から除外して検出力を向上させる前処理。
- plotCounts
- 特定遺伝子のカウントをサンプルごとに可視化する関数。
- plotMA
- MAプロットを描く関数。発現差と平均発現量の関係を視覚化します。
- plotPCA
- 主成分分析の結果を可視化する関数。サンプル間の関係性を把握します。
- vst
- Variance Stabilizing Transformation。データの分散を安定化させる変換。
- rlog
- Regularized log transformation。低カウントデータの扱いを改善します。
- assay
- SummarizedExperimentオブジェクトのデータスロット。countsやnormalized countsなどを格納。
- assayNames
- SummarizedExperimentに格納されているアッセイ名の一覧。
- Cook's distance
- 影響度の大きいデータ点を識別する指標。アウトライヤの診断に役立ちます。
- outliers
- 統計モデルから外れたデータ点。DESeq2はアウトライヤの検出・扱いをサポートします。
- prefiltering
- 分析前に発現の低い遺伝子を除外して検出力を向上させる前処理。
- resultsNames
- results()で取得できる比較名の一覧を返す関数。どの比較を出力できるかを確認します。
- experimental design
- 実験の設計。どの条件で比較するかを決め、設計式を通じてモデル化します。
- result table
- 差次表現解析の結果を遺伝子ごとにまとめた表。LFC、p値、padj、baseMeanなどを含みます。



















