fasta形式とは？初心者にもわかる使い方ガイド共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

fasta形式とは？基本をおさえる

fasta形式は生物情報のデータを扱うときに使われる、とても基本的なテキスト形式です。主に遺伝子の配列やタンパク質の連中を表すのに用いられ、人間にも機械にも読みやすい特徴があります。

この形式はバイオインフォマティクスの世界で広く採用されており、BLAST や多くの配列解析ソフトウェアで標準的に読み込むことができます。初心者の方にも理解しやすい理由は、特別な記号が少なく、ファイルはテキストだけで構成されているからです。

基本の構造

FASTA形式の基本はとてもシンプルです。1つのシーケンスにつき、次の2つの要素から成り立っています。

1) ヘッダ行: 行の先頭に「>」が付き、シーケンスのIDや説明が入ります。例としては >seq1 の説明のような形です。

2) 配列データ: ヘッダ行の下に、実際の文字列データが続きます。遺伝子配列ならアルファベットの A C G T など、タンパク質配列なら 20 種のアミノ酸コードが並びます。長い配列は複数行に分かれて表記されることが多いです。

簡単な例

以下は単純な FASTA の例です。実際のファイルではこのように複数のシーケンスを1つのファイルに並べることがあります。

1行目: >seq1 これは説明です

2行目: ATGCGTACGTA

3行目: CGTACGTA

1行目: >seq2 別の配列

2行目: GGCATGCA

3行目: TTGCA

なぜヘッダが重要か

ヘッダ行にはシーケンスを特定するIDが入っています。IDはデータベースと照合したり、論文中で参照したりする際の鍵になります。IDだけでなく説明を入れておくと後で探しやすく、どのサンプルか、どの実験条件かなどを思い出しやすくなります。

FASTA形式の利点と注意点

メリットとしては、人にも機械にも読みやすい点と、ほとんどの解析ツールが対応している点が挙げられます。一方で、品質情報が含まれないため配列の信頼度を表す情報は別ファイル（例 FASTQ など）で管理するケースが多いです。

ファイルの使い方と実践のコツ

実務では、ファイル拡張子として .fasta や .fa が使われます。解析ソフトに渡す前に、ヘッダのIDが重複していないか、文字種が英字だけか、改行の位置が不規則で読みにくくなっていないかを確認します。

配列は一般に大文字のアルファベットで表現され、N など未知の塩基を表すコードも使われます。長い配列を1行に書くのではなく、複数行に分けて書くのが読みやすさのコツです。多くのツールは一定の文字数ごとに改行されていることを前提にしています。

表で押さえる要点

要素	説明
ヘッダ行	先頭が「>」で始まり、IDと任意の説明を含む
配列データ	ヘッダ行の下に続く文字列。複数行に分かれて記載されることが多い
ファイル名	通常 .fasta または .fa の拡張子を使用