hmmerとは?初心者でもわかる基礎と使い方ガイド共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
hmmerとは?初心者でもわかる基礎と使い方ガイド共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


hmmerとは?初心者向けの解説

hmmerは、タンパク質やDNAの配列データベースから、目的のパターンを探すための代表的なツールです。基本的な考え方は、隠れマルコフモデル(HMM)という統計的なモデルを使って、配列の似ている部分を見つけ出すことです。

なぜ hmmer が役に立つのか

従来の単純なパターン探しよりも、複数の配列の変化をうまく扱えるのが hmmer の長所です。ファミリー名やドメイン名がわかっている場合、それに合う新しい配列を迅速に見つけることができます。

主な道具と使い方の流れ

hmmer にはいくつかのコマンドがあります。代表的なものは次のとおりです。hmmsearch はデータベース中からプロフィールHMMにマッチする配列を探します。hmmscan は提供されたシーケンスセットに対してプロフィールHMMを適用します。hmmbuild は複数配列のアラインメントからプロフィールHMMを作成します。hmmpress は検索を高速化するためにデータベースを圧縮します。

<th>機能
説明
hmmsearchデータベース中からプロフィールHMMにマッチする配列を検出します。
hmmscanシーケンスセットに対してプロフィールHMMを適用します。
hmmbuild複数配列のアラインメントからプロフィールHMMを作成します。
hmmpress大規模データの検索を高速化するための圧縮ファイルを作成します。

インストールの基本

インストールには公式サイトからのビルドや Bioconda 経由の方法があります。初心者には Bioconda 経由でのインストールが 最も簡単で安定しています。コマンドは次のとおりです。

conda install -c bioconda hmmer を実行してインストールします。インストール後は hmmscan --version などで正しく動作するかを確認します。

使い方の流れと実例

まず前提として、プロフィールHMMを用意します。これはあるタンパク質ファミリーの共通の特徴を表したモデルです。次に検索したいデータを準備します。最後にコマンドを実行します。

例1: データベース中から profile.hmm に一致する配列を探す場合は、hmmsearch database.fasta profile.hmm を実行します。結果にはスコアやE値、一致している領域の位置が表示されます。

例2: 複数のシーケンスに対して同様の検索を行う場合は、hmmscan query_sequences.fa profile.hmm を使います。

出力結果の読み方のコツ

出力には主に コアE値、および一致した領域の開始位置と終了位置が表示されます。E値は偶然の一致の可能性を表す指標で、小さいほど信頼度が高くなります。自動的にヒットのリストを作成してくれるので、後で人が解釈する作業が少なくて済みます。

まとめ

hmmer は、データベース検索とプロファイルHMMの作成・適用を通じて、タンパク質の機能予測やドメイン検出を強力にサポートします。初心者は Bioconda 経由のインストールから始め、hmmsearch と hmmscan の基本的な使い方を練習すると良いでしょう。


hmmerの同意語

HMMER
プロファイルHMMを用いた配列検索ツールで、タンパク質ファミリーやドメインを検出するのに使われます。
HMMER3
HMMER の第3世代(バージョン3系)で、前バージョンより高速・高精度な配列検索を提供します。
HMMERスイート
hmmbuild、hmmsearch、hmmscan など、HMMER を構成する複数のツールのセットです。
プロファイルHMM検索ツール
プロファイルHMMを使って配列を検索するための一般的な名称で、HMMER の機能を指します。
プロファイルHMMベースの検索ツール
プロファイルHMMを基盤とした配列検索ツールの別称です。
隠れマルコフモデルベースの配列検索ツール
隠れマルコフモデル(HMM)を基盤にした配列の相同性検出ツールです。
HMMベースの配列検索ツール
HMM(隠れマルコフモデル)を使った配列検索の総称です。
Hidden Markov Model検索ツール
英語表記の同義語で、HMMを使った配列検索ツールという意味です。
隠れマルコフモデル検索ソフトウェア
HMMを用いた配列検索を行うソフトウェア全般を指す表現です。

hmmerの対義語・反対語

手動検索
データベース内の配列を人の手で直接照合・比較する方法。自動化されたHMMERとは反対に、時間がかかりミスのリスクも高く、再現性は低くなりがちです。
非機械的アプローチ
ツールを使わず、観察と判断だけでデータを評価する方法。自動化や再現性の観点ではHMMERの長所である機械的推論と対照的です。
規則ベース検索
事前に決めたパターンやルールに従って検索する方法。確率モデルを使わず、決定論的な照合になるためHMMERの柔軟性と異なります。
直接アライメントのみ
HMMERのような確率モデルを用いたスキャンを使わず、単純なシーケンスの直接アライメントに頼る方法。計算は簡易でも検出力が低いことがあります。
非確率的検出
確率分布やスコアリングを使わず、閾値や単純な比較だけで検出を行うアプローチ。HMMERの統計的根拠と対比されます。
非HMMベースの解析
HMM(隠れマルコフモデル)を使わない解析手法。例えば、他のツールや規則ベースの手法を指す場合が多いです。
ヒューリスティック検索
経験則や直感的なアルゴリズムで高速に探索する方法。精度は落ちやすい反面、規模の大きいデータに向くことがあります。
ローカル検索重視
全体最適ではなく局所的な領域の照合に重点を置くアプローチ。HMMERの全体的な確率推定とは別の発想です。
アナログ解析
デジタル計算機を使わず、物理的・手作業の判断でデータを評価する古風な手法。現代のHMMERの自動化・再現性と対比されます。

hmmerの共起語

HMM
隠れマルコフモデルの略。系列データの生成過程を確率的に表現する基本的な統計モデル。
Profile HMM
複数配列アラインメントから作られるHMMで、タンパク質ファミリの特徴を表すプロファイル
HMMER
HMMERは、HMMを使って配列データベースを検索・解析するソフトウェア群。
HMMER3
HMMERの第三世代。高速・高感度な主流バージョン
hmmsearch
データベース中の配列とHMMを比較してヒットを検出するコマンド。
hmmscan
HMMERのドメインレベルの一致を検出するコマンド。
hmmbuild
複数配列アラインメントからHMMを構築するコマンド。
hmmalign
HMMと配列を整列させるコマンド。
jackhmmer
反復的にHMMを更新して探索を広げる検索モード
phmmer
タンパク質間の相同性検索。HMMを使って遠縁の配列を探す。
Pfam
タンパク質ファミリーデータベース。HMMを用いたファミリ分類の基盤。
Pfam-A
Pfamの高品質モデルセット。信頼性の高いHMMが含まれる。
Pfam-A.hmm
Pfam-AデータベースのHMMファイル名(例 Pfam-A.hmm)。
Pfam-seed
Pfamが提供するシードアラインメント集合。新しいHMMを構築する際の初期データ。
InterPro
複数データベースの機能予測を統合するサービス。HMMERはこのデータのドメイン情報として使われることが多い。
InterProScan
InterProのアノテーションをまとめて出力するツール。HMMERを含む解析手法を統合。
Domain
メイン。タンパク質の機能領域のこと。
Domain hit
検出されたドメインのヒット。HMMERが見つけた一致のこと。
E-value
期待値。偶然に等しいスコアが出る確率を表す指標。
Bit score
ビットスコア。スコアを正規化した指標。
Score
スコア。マッチの良さを表す総合指標。
tblout
テーブル形式の出力ファイル。ヒット一覧が見やすい形。
domtblout
ドメインごとのヒットを一覧化する出力形式。
hmmpress
データベースを圧縮・インデックス化して検索を高速化する準備作業。
GA (Gathering Threshold)
採択閾値。新しいヒットを採用する目安になる閾値。
trusted cutoff
信頼カットオフ閾値。高信頼ヒットだけを取り扱う基準。
noise cutoff
ノイズカットオフ閾値。低信頼のヒットを除外する基準。
seed alignment
シードアラインメント。HMMを初期から学習させるための基準となるアラインメント。
FASTA
配列データの標準的なテキスト形式。入力の基本形式。
UniProt
タンパク質情報の大規模データベース。研究でよく参照されるデータ源。
GO annotation
遺伝子機能のGO用語でのアノテーション。機能予測の一部として使われる。
MSA
Multiple Sequence Alignment(多重配列アラインメント)の略。HMMERの学習データ源になる。
Pfam accession
Pfamファミリの識別子(例 PF00069)。

hmmerの関連用語

HMMER
生物情報学のツール群で、プロフィールHMMを使ってタンパク質・核酸配列の相同性を高速かつ感度良く検索します。
Hidden Markov Model
観測データを生成する潜在的な状態と遷移確率を用いた統計的モデル。生物配列のモデリングに広く使われます。
プロフィールHMM
複数の類似配列を一つの確率モデルにまとめた隠れマルコフモデル。ドメインの特徴を捉えるのに適しています。
hmmbuild
複数配列アラインメントからプロフィールHMMを構築するHMMERのプログラム
hmmsearch
プロフィールHMMを用いて、データベース中の配列を検索するコマンド。
hmmalign
配列をプロフィールHMMに沿って整列させるコマンド。
hmmcalibrate
構築したHMMの閾値をデータに合わせて調整し、E値を適切に推定できるようにする作業/ツール。
hmmpress
大規模データベースをHMMER用に圧縮して検索を高速化する工具。
nhmmer
核酸配列(DNA/RNA)の検索に対応したHMMER。生物種問わず核酸データにも対応。
phmmer
単一のクエリ配列を対象に、HMMER的手法でデータベースを検索するコマンド。
jackhmmer
反復的な探索によってヒットを拡張し、モデルを更新しながら同家族の配列を探すツール。
HMMER3
HMMERの第三世代で、従来比べて感度と速度が向上した主要バージョン。
Pfam
タンパク質ファミリの大規模データベースで、HMMERの標的として広く用いられます。
Pfam-A
Pfamの高品質HMMモデルセット。
Pfam-A.hmm
Pfam-AのHMMファイル。ドメイン検出の標準的モデルです。
E-value
得られたヒットが偶然に生じる確率を示す指標。小さいほど有意です。
bitscore
ヒットのマッチ品質を表す指標。高いほど良い一致を示します。
gathering threshold
ファミリやドメインごとに設定される自動閾値。感度と信頼性のバランスを取ります。
domain detection
タンパク質中のドメインを識別して境界を検出する作業。
Multiple Sequence Alignment
複数の配列を同じ基準で並べる整列作業。HMMERの前処理として使われます。
FASTA format
配列データの標準的なテキスト形式。多くのツールがこの形式を入力として受け取ります。
Stockholm format
複数配列アラインメントの保存形式の一つ。HMMERの入力にも使われることがあります。
DNA/RNA search
核酸配列を対象とした検索。nhmmerなどで実現します。
protein domain annotation
タンパク質のドメインを同定し、機能を注釈する作業。
Iterative search
JackHMMERのように、候補を反復的に取り込みながらモデルを改善していく探索法。
database compression
大規模データベースを圧縮して、検索速度とメモリ使用を改善する手法。

学問の人気記事

トルクの単位・とは?初心者向けに徹底解説!なぜ単位が違うのかまで分かる共起語・同意語・対義語も併せて解説!
2058viws
引用・参考文献とは?初心者でもわかる使い方とポイント解説共起語・同意語・対義語も併せて解説!
804viws
ensureとは?初心者にもわかる意味と使い方を徹底解説共起語・同意語・対義語も併せて解説!
696viws
座標計算・とは?初心者向けガイドで完全マスター共起語・同意語・対義語も併せて解説!
674viws
絶縁抵抗値とは?初心者でも分かる測定の基本と安全のコツ共起語・同意語・対義語も併せて解説!
564viws
示差走査熱量測定とは?初心者向けガイドで学ぶ基本と実験のポイント共起語・同意語・対義語も併せて解説!
553viws
no・とは?初心者にもわかる意味と使い方ガイド共起語・同意語・対義語も併せて解説!
546viws
ナイロン樹脂とは?初心者にもわかる基本と用途ガイド共起語・同意語・対義語も併せて解説!
506viws
k型熱電対とは?初心者にも分かる基礎解説と活用事例共起語・同意語・対義語も併せて解説!
481viws
welchのt検定とは?不等分散のデータを比較する統計手法をやさしく解説共起語・同意語・対義語も併せて解説!
457viws
summarize・とは?初心者向け解説と使い方のコツ共起語・同意語・対義語も併せて解説!
436viws
論述問題・とは?初心者にも分かる解説と解き方のコツ共起語・同意語・対義語も併せて解説!
434viws
気圧の単位とは?中学生にもわかるPa・atm・bar・Torrの違いと換算ガイド共起語・同意語・対義語も併せて解説!
425viws
穴加工・とは?初心者が知っておく基本と現場での活用ポイント共起語・同意語・対義語も併せて解説!
412viws
大辞林とは?初心者にもわかる日本語辞典の使い方と特徴共起語・同意語・対義語も併せて解説!
390viws
洗浄バリデーションとは?初心者が押さえる基本と実務のポイント共起語・同意語・対義語も併せて解説!
367viws
3/4・とは?分数の基本を分かりやすく解く完全ガイド共起語・同意語・対義語も併せて解説!
364viws
z変換・とは?初心者が知っておくべき基礎と日常への応用共起語・同意語・対義語も併せて解説!
363viws
endnoteとは?研究ノートを整理する基本ツールの解説共起語・同意語・対義語も併せて解説!
360viws
100g・とは?初心者が今すぐ知っておきたい基本と使い方共起語・同意語・対義語も併せて解説!
360viws

新着記事

学問の関連記事