ホモロジー検索・とは？初心者にもわかる基本と活用のポイント共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

ホモロジー検索・とは？

ホモロジー検索とは、ある生物の遺伝子やタンパク質の配列を、データベースに登録された他の配列と比べて「似ているかどうか」を調べる方法のことです。似ている度合いを数値で表し、共通の祖先から来た可能性を推定します。簡単に言えば、“似ている配列を探す検索”の一種です。

この手法は、新しい遺伝子の機能を推測したり、系統樹を作るときに役立ちます。例えば、あるタンパク質の役割を知りたいとき、すでに知られている別の生物のタンパク質とどれくらい似ているかを調べ、機能のヒントを得ることができます。

ホモロジー検索の代表的なツールには BLAST や FASTA などがあります。これらのツールはウェブ上で使えるものもあれば、コンピュータにインストールして使うものもあります。

基本的な考え方

大きなポイントは3つです。クエリ配列（あなたが調べたい配列）とデータベース配列（照合対象となる配列群）を用意し、両者の相同性を計算して「どれくらい似ているか」を数値化します。

似ている度合いを評価する指標には、E値、Identity、得点などがあります。E値は「偶然に同じような配列が見つかる確率」を表す指標で、E値が小さいほど有意性が高いとされます。

検索の流れ（初心者向けの実践案内）

まずは自分が知りたい配列をクエリとして準備します。次に検索対象とするデータベースを選び、検索を実行します。結果にはヒットした配列が一覧表示され、各ヒットのE値、Identity、得点などが示されます。

結果を解釈するときは「似ている＝機能が同じ」とは限らないことに注意しましょう。配列の長さ、進化の速さ、ドメイン構造の違いなどが結果に影響します。

記事の使い方と注意点

初心者が陥りがちなポイントは、低いE値だけを鵜呑みにしないことです。複数の指標を組み合わせて判断するのが安全です。また、データベースは日々更新されるため、最新の結果を確認することが重要です。

実務での活用例としては、新規遺伝子の機能予測、類似遺伝子の探索、系統樹の補助などがあります。複数の種の配列を比較することで、進化の過程を読み解く手掛かりを得られます。

よく使われるツールの紹介

代表的なツールには BLAST、FASTA、HMMER などがあります。これらはオンラインで使えるサービスと、オフラインで動かせるソフトウェアの両方があり、目的に応じて選ぶことができます。

用語の整理と簡易表

<th>用語

意味
ホモロジー	共通の祖先から生まれた遺伝子同士の関係を指す
オルソロジー	種をまたいで機能が保たれている遺伝子の関係
パラロジー	同じ遺伝子ファミリー内で重複により生じた類似遺伝子
BLAST	代表的な類似性検索ツール
E値	検索結果の統計的有意性を示す指標

まとめと今後の学習のヒント

ホモロジー検索は生物学の研究で基本となる手法です。はじめは基本的な使い方と指標の意味を理解し、徐々に複雑な解析へとステップアップしていくと良いでしょう。

ホモロジー検索の同意語

同源検索: ホモロジー（同源性）を持つ配列を見つけ出すための検索。DNA・RNA・タンパク質配列間の共通祖先由来性を検出する手法を指す。
相同性検索: 配列間の相同性（類似性・同源性）を検出するための検索。類似している配列を見つけるのに用いられる。
相同検索: 同義の表現で、配列間の相同性を検出する検索のことを指す。
同源性検索: 同源性を持つ配列を探すための検索。系統的に近い配列を見つけ出す作業を含む。
ホモロジー探索: 同源性を持つ配列を探索する作業。BLASTなどのツールを用いて近傍の配列を探す活動を指す。
相同性探索: 配列間の相同性を探索する行為。新規配列の同源性を調べる際に用いられる。
同源配列検索: 同源性を持つ配列を検索すること。類似している配列を抽出する操作を意味する。
配列同源性検索: 配列データセットの中から、同源（祖先が共通）と考えられる配列を探す作業。

ホモロジー検索の対義語・反対語

非ホモロジー検索: ホモロジー（相同性）を前提とせず、全く相同性が見られない領域や、相同性を対象にしない探索を指します。対義語としては、相同性を用いて類似性を探すホモロジー検索があります。
非相同性検索: 相同性を前提としない、あるいは重視しない検索の総称。ホモロジー検索の反対・対照的な考え方として用いられることがあります。
非同源探索: 遺伝的起源が異なる、同じ祖先を持たない配列や特徴を対象にする探索。ホモロジー検索が同源性を前提とするのに対し、非同源探索はそれを前提にしません。
相同性否定検索: 配列間に相同性が存在しないことを強調して探索する考え方。ホモロジー検出の逆の視点を表現する場合に使われます。
ホモロジー以外の探索: 相同性以外の指標（機能、構造、モチーフ、パターン）を用いて類似性を探す探索の総称。ホモロジー検索の対比として使われることがあります。
非類似配列探索: 類似性がない、またはほとんどない配列を対象とする探索。ホモロジー検索の対義語的な発想として挙げられます。

ホモロジー検索の共起語

相同性検索: クエリ配列と遺伝子・タンパク質配列の間に相同性があるかをデータベースから探す手法。起源や機能推定の第一歩として使われます。
BLAST: Basic Local Alignment Search Toolの略。高速に局所的な配列アラインメントを作成し、ヒットの有意性(E値)を表示します。
アラインメント: 二つ以上の配列を並べて、共通の配列位置を揃え、類似性を評価する作業。近縁性の判断に欠かせません。
スコアリングマトリクス: アラインメント時に置換コストや得点を決める表。代表例にはBLOSUMやPAMなどがあります。
BLOSUM62: タンパク質配列の置換を評価する標準マトリクスで、日常の相同性検索でよく使われます。
PAM: 初期の置換マトリクスの一つで、分岐長の異なる系統間の比較に適しています。
E値: 検索結果のヒットが偶然起こる確率を表す指標。値が低いほど有意と見なされます。
データベース検索: NRデータベースや UniProt など、既知配列の大規模データベースを対象に同源配列を探す作業。
NRデータベース: Non-Redundant Protein Databaseの略。重複を排したタンパク質配列データベースです。
タンパク質配列: アミノ酸の並びを表す配列。ホモロジー検索の主要な対象の一つです。
核酸配列: DNAまたはRNAの配列。翻訳検索や転写産物の同源探索にも使われます。
オルソログ: 異なる種間で機能的に直系の同源遺伝子。系統比較でよく用いられます。
パラログ: 同一ゲノム内の重複遺伝子で、機能が分岐してファミリーを形成します。
多重配列アラインメント: 複数の配列を同時に整列させ、共通の保守部位を同定する手法。系統解析に役立ちます。
HMMER: 隠れマルコフモデル(HMM)を用いて、配列ファミリーのホモロジーを探索するツール。
隠れマルコフモデル: 系列データのパターンを確率的に表現するモデル。ファミリー探索などで活用されます。
系統樹: ホモロジーを持つ配列の系統的な関係を木構造で表したもの。推定・可視化に用いられます。

ホモロジー検索の関連用語

ホモロジー検索: 配列間の相同性に基づいて、共通の祖先を持つ遺伝子・タンパク質を探索する手法。BLASTやHMMERなどのツールを使い、未知の配列の機能予測や系統推定に利用します。
相同性: 遺伝子・タンパク質が共通の祖先から分かれて生じたときの類似性のこと。通常は同源性（ホモロジー）と機能保存の指標として使われます。
同源遺伝子: 共通の祖先遺伝子に由来する遺伝子のこと。種をまたいで保存されていることが多いです。
オーソロジー: 種分岐時に生じた直系の相同遺伝子。機能が保たれていることが多く、種間で対応する遺伝子を指します。
パラロジー: 同一生物内で遺伝子重複により生じた相同遺伝子。機能が分化する場合があります。
近縁配列: 相当な類似性を示す配列の総称。ホモロジー検索の結果としてよく現れます。
BLAST: Basic Local Alignment Search Toolの略。局所配列アライメントを用いて類似配列を高速に探索する代表的ツールです。
BLASTP: タンパク質同士のBLAST検索。アミノ酸配列の相同性を評価します。
BLASTN: 核酸同士のBLAST検索。DNA/DNAの局所整列を行います。
FASTA: FASTAアルゴリズム。古典的な配列類似検索ツールで、局所アラインメントが基本です。
PSI-BLAST: Iterative BLAST。初期ヒットをもとに反復的に探索範囲を広げ、遠縁のホモロジーを検出します。
HMMER: 隠れマルコフモデルを用いた配列解析ツール。ドメイン検出やファミリー推定に強いです。
HMMER3: HMMERの主要バージョン。高速かつ精度の高い検索機能を提供します。
hmmsearch: HMMERのデータベース照合コマンド。HMMとデータベースを照合してドメインを検出します。
Pfam: タンパク質ファミリーのドメインを集めたデータベース。HMMを用いてドメインを同定します。
InterPro: 複数のデータベースを統合したタンパク質ファミリ/ドメイン情報の総合データベース。機能予測の基盤です。
Conserved domain: 保存ドメイン。タンパク質の機能的に重要な領域で、進化的に高い保存がみられます。
Domain architecture: ドメイン構造。タンパク質がどのドメインで構成されているかを表します。
CDD: Conserved Domain Databaseの略。NCBIが提供する保存ドメインデータベースです。
SMART: タンパク質ドメイン・モチーフのデータベース。ドメインの識別と機能推定に使われます。
PROSITE: タンパク質モチーフやパターンを収集したデータベース。配列中の特徴的パターンを検索します。
SCOP: Structural Classification of Proteins。タンパク質の構造階層による分類体系です。
CATH: Class, Architecture, Topology, Homologyの頭文字を取った分類系。構造とホモロジーの関係を整理します。
E-value: 期待値。ヒットが偶然に起こる確率の指標で、値が小さいほど有意とされます。
Bit score: アライメントの信頼性を示す統計的スコア。E値と合わせて解釈します。
Identity: アライメント中の一致割合。完全一致の割合を示します。
Similarity: 相同性。置換を含む総合的な類似性の指標です。
Query coverage: クエリ配列がアライメントでカバーされている割合。大きいほど信頼性が高いヒットとされます。
Alignment length: アライメントの長さ。どれくらいの長さが整列しているかを表します。
Multiple sequence alignment (MSA): 複数の配列を同時に整列させる手法。系統解析や機能予測の基礎です。
Clustal Omega: 多重配列アラインメントを高速に作成する代表的ソフトウェア。
MUSCLE: 高精度な多重配列アラインメントを提供するツール。
Needleman-Wunsch: 全長アラインメントアルゴリズム。端部まで一致を探します。
Smith-Waterman: 局所アラインメントアルゴリズム。最も類似な局所領域を見つけます。
SSEARCH: Smith-Watermanの実装の一つ。全探索型のローカルアラインメントツール。
DIAMOND: BLASTに代わる高速なタンパク質・DNA類似検索エンジン。大規模データに適します。
RBH: Reciprocal Best Hit。相互ベストヒットとも呼ばれ、異なる種間の同源推定の一手法です。
Orthologous group: オーソロジー群。同機能を保つ遺伝子の種をまたぐファミリーの集まり。
Genomic database: データベース全般。遺伝子・配列データの格納先です。
NCBI nr: Non-redundant protein sequence database。重複を除いたタンパク質配列データベース。
UniProt: タンパク質情報の総合データベース。機能・構造・ドメイン情報が豊富。
RefSeq: 参照配列データベース。高品質な標準アノテーションを提供します。
Homology modeling: ホモロジーモデリング。既知構造の類似体を使って未知構造を予測します。
Alignment score: アライメントの総合得点。ヒットの良さを表します。
Database search strategy: データベースを検索する際の計画。使用ツール・閾値・データベース選択を含みます。