fastaファイル・とは？初心者でもわかる基本と使い方ガイド共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

fastaファイル・とは？

fastaファイルは、遺伝子の配列データを保存するための、世界中の生物学者や研究者がよく使う基本的な「テキスト形式」です。ファイル形式としてはとてもシンプルで読みやすく、機械でも人間にも扱いやすい特徴があります。

この形式は、ヘッダと配列データの2つの部分で成り立っています。ヘッダは先頭行に「>」から始まる文字列で、配列データはその下の行に続くA、C、G、T（DNA の場合）やアミノ酸を表す文字列（タンパク質の場合）で構成されます。

基本構造と用語

実際の FASTA ファイルは、以下のような構造をとります。ヘッダ行の直後から、実データの配列が続きます。ヘッダには準拠した ID や説明を入れるのが一般的です。

ヘッダ: ヘッダは <span>> から始まり、ID や説明を含みます。例として >seq1 のように書くのが基本です。
配列データ: ヘッダの下には、配列の文字列が続きます。改行で区切って複数行にわたって表示されることが多く、実データは A、C、G、T、U、またはタンパク質なら 20 種のアミノ酸を表す文字が使われます。

実用的な解説

fastaファイルの扱いは、まずテキストエディタで中身を確認してみるのが早道です。拡張子は .fasta または .fa が一般的です。

読み方のコツとして、ヘッダのIDは解析ソフトウェアにとっての鍵となるため、短く覚えやすい名前をつけると後で楽になります。

例

>seq1

ATGCGTACGTAGCTAGCTACGTA...

どんな場面で使うのか

FASTA形式は、遺伝子配列データの保存・共有・解析の基本です。検索・比較・系統樹の作成・アミノ酸配列の同定など、さまざまなバイオインフォマティクスの作業に使われます。

実務での活用例

最も身近な使い道は、公開データベースから配列を取得して、自分の解析に取り入れることです。データベースには多くのFASTAファイルが公開されており、研究や学習の教材として活用できます。

<th>項目

説明
拡張子	.fasta または .fa
ヘッダ	行の先頭に「>」を置き、IDや説明を記述
配列データ	ヘッダの下に DNA/タンパク質配列の文字列を並べる
主な用途	配列の保存、共有、解析の基礎データ形式

高速に処理するには、Python の Biopython の SeqIO などのライブラリを使う方法が人気です。コマンドラインのツールとしては seqtk や grep などがあり、ファイル内の情報を検索・変換するのに役立ちます。

最後に覚えておきたいポイントをまとめます。FASTAは読みやすく、機械も扱いやすいテキスト形式です。データの共有や解析の出発点として広く使われ、学習用にも最適な教材となります。

fastaファイルの同意語

FASTAファイル: FASTA形式の核酸・タンパク質配列データを格納するテキストファイル。>で始まる説明行と、その後の配列行から構成され、1つのエントリが1つの配列を表します。
FASTAファイル形式: FASTAファイルのデータを保存するための形式。説明行は '>' で始まり、続く行に配列が記述される、テキストベースの標準フォーマットです。
FASTA形式: FASTA形式は、DNA/RNAまたはアミノ酸配列をテキストで表す標準フォーマットの総称。説明行と配列行で構成されます。
FASTAフォーマット: FASTAファイルが用いるフォーマットの名称。核酸やタンパク質の配列データを扱う際の基本形です。
fastaフォーマット: 大文字小文字の表記の違いのみで、意味は同じFAST Aフォーマット。テキストベースの配列データ表現。
拡張子 .fasta のファイル: .fasta 拡張子を持つファイルで、FASTA形式の配列データを含むことが多いです。
拡張子 .fa のファイル: .fa 拡張子を持つファイルも FASTA形式の配列データを含むことが一般的です。
FASTAデータファイル: FASTA形式の配列データを格納したファイルの総称。DNA・RNA・タンパク質配列を含みます。
核酸配列ファイル（FASTA形式）: DNAやRNAの核酸配列データをFASTA形式で保存したファイル。
アミノ酸配列ファイル（FASTA形式）: タンパク質のアミノ酸配列をFASTA形式で保存したファイル。
DNAシーケンスファイル（FASTA形式）: DNAのシーケンスデータをFASTA形式で表すファイル。
RNAシーケンスファイル（FASTA形式）: RNAのシーケンスデータをFASTA形式で表すファイル。
FASTAデータ: FASTA形式の配列データを指す略称的表現。文脈上はファイルやデータを指します。
テキストベースの配列ファイル（FASTA形式）: FASTAはテキストベースの配列データ表現で、文字列として配列を表現します。
生物情報学の標準シーケンスフォーマット: 生物情報学で広く使われる、配列データを表現する標準フォーマットの一つ。

fastaファイルの対義語・反対語

バイナリファイル: FASTAファイルは配列データを表すテキスト形式です。対義語として挙げられるのは、2進データとして格納され、人が直接読めないバイナリファイルのことです。
非FASTA形式ファイル: FASTAの仕様に従わないファイル。配列データを別のフォーマットで格納しており、解析ソフトの期待する記述とは異なることが多いです。例として FASTQ や GenBank など、他の生物情報フォーマットが挙げられます。
FASTQファイル: FASTQは配列データと品質情報をテキストで格納する別形式です。FASTAとは異なる目的と記法を持つ、同じ領域の“別形式”として捉えると対比しやすいです。
GenBankファイル: GenBank は遺伝子配列と機能注釈を含むフォーマットで、FASTAとは別の記述ルールを用います。

fastaファイルの共起語

FASTA: DNAやタンパク質の配列データをテキストで表す標準フォーマットの略称。ヘッダ行(>で始まる)と配列行で構成される。
FASTQ: FASTQ形式。FASTAに品質情報を付けたフォーマットで、主にリードデータの保存に用いられる。
ヘッダー: FASTAの各エントリの識別情報を含む先頭行。通常は > で始まる。
配列データ: 実際のDNA/RNA/タンパク質の並び順を表す文字列。
核酸配列: DNAやRNAの塩基順序を指す用語。
タンパク質配列: アミノ酸の並び順を表す配列データ。
リード: 次世代シーケンサーで得られる短い配列片。
リードデータ: リードを含むデータ全体。FASTQが主な例。
参照配列: 解析の基準となる配列。リファレンスとも呼ばれる。
リファレンスゲノム: 参照ゲノム。研究や比較の標準となるゲノム配列。
ゲノム: 生物の全遺伝情報の総称。
アラインメント: 複数の配列を比較して対応づける作業。
多重配列アラインメント: 複数の配列を同時に整列する手法。
アラインメントツール: 配列を整列するソフトウェア。例として MAFFT、Clustal Omega、BLAST など。
BLAST: 類似配列を検索・比較する代表的なツール。FASTA/FASTQデータを対象に用いられることが多い。
MAFFT: 多重配列アラインメントツールの一つ。FASTA形式の入力を扱う。
Clustal Omega: 多重配列アラインメントツールの一つ。FASTA形式の入力を扱う。
フォーマット変換: FASTAと他フォーマットの間でデータを変換する作業。
文字集合: FASTAで使われる文字には A、C、G、T、N などがある。
品質情報: FASTQに含まれる、各リードの品質スコアを表すデータ。
NCBI: 米国の公的生物情報機関。FASTA形式のデータ規格やデータベースを提供。
SRA: Sequence Read Archive。リードデータを蓄積するデータベース。
エントリ: FASTAファイル内の1つの配列エントリを指す用語。

fastaファイルの関連用語

FASTAファイル: 生物のDNA/RNA/タンパク質の配列をテキスト形式で保存するファイル形式。1つのファイルに複数の配列を格納でき、各配列はヘッダ行と実体の組み合わせで表されます。
FASTA形式: ヘッダ行は '>' で始まり、その後に続く行に配列を1行ずつ書く、シンプルな配列表現形式です。
ヘッダ行（defline）: 配列の識別子と説明を含む1行。 '>' に続く文字列で、IDは多くの場合最初のトークンとして使われます。
シーケンス（配列）: ヘッダ行の下に続く実際の塩基列（DNA/RNA）またはアミノ酸列。大文字で表現されることが多いです。
マルチFASTA: 1つのファイルに複数の配列を格納する形式。各配列は独立したヘッダ行と配列データのブロックで構成されます。
拡張子（.fasta, .fa, .fna, .faa）: .fasta/.fa は一般的な拡張子。.fna はヌクレオチド配列、.faa はタンパク質配列用の拡張子として使われることがあります。
IUPAC塩基コード: 塩基を1文字で表す規約。A/C/G/Tのほか、N(不定)、R/Y/S/W/K/M/B/D/H/V などのコードで不確定性や複数の候補を表します。
大文字/小文字の使用: ツールによって扱いが異なる場合がありますが、FASTAでは大文字が一般的です。小文字は一部ツールで意味を持つこともあります。
行折り返しと整形: 長い配列は複数行に折り返して保存するのが一般的。読み込み時には折り返しを無視して連結します。
DNA/ヌクレオチド配列: DNAやRNAを構成する塩基の並びを表す配列。DNAはA/C/G/T、RNAはUを用いることが多いです。
アミノ酸配列: タンパク質を構成するアミノ酸の並びを表す配列。文字は20種のアミノ酸コードが基本です。
品質情報を含まない: FASTAには配列データのみで品質スコアは含みません（品質情報が必要な場合はFASTQを使います）。
FASTQとの違い: FASTQは配列に対応する品質スコアを併記するフォーマット。FASTAは配列のみを扱います。
ヘッダの第一トークンとID: ヘッダ行の '>' に続く最初の空白までの文字列がIDとして使われることが多く、ツール間でIDで配列を参照します。
BLASTとの関係: BLAST系ツールはFASTA形式を入力として受け付け、配列検索の対象として利用できます（形式によっては別の読み込みが必要な場合も）。
BLASTデータベース作成（makeblastdb）: 公開データを検索するためのFASTAデータベースを作成するBLAST用ツール。
アライメントツールとの関係: ClustalW、MUSCLE、MAFFT などのアラインメントツールはFASTA形式を入力として使います。
データベース/公開データベース: NCBIのnt/ntn、nr、EMBL、DDBJ、UniProtなど、FASTA形式で提供される代表的な配列データベースがあります。
データのIDとアクセッション番号: 多くのヘッダにはアクセッション番号や遺伝子名など、配列を一意に特定する識別子が含まれます。
無効文字・エラー処理: 配列中の未知文字があると読み込みエラーになることがあります。事前にクリーニングすることがあります。
データの圧縮と配布: ファイルサイズを小さくするためにgzipなどで圧縮して保存・転送することが一般的です。
BiopythonのSeqIO: PythonライブラリBiopythonの SeqIO を使うと、FASTAの読み書きが簡単に行えます（例: SeqIO.parse, SeqIO.write）。
FASTAの基本操作: 配列の長さ計算、特定のサブシーケンスの抽出、フィルタリング、重複排除などの前処理に使われます。
データ前処理と品質管理: 解析前に欠損配列の除去、トリミング、重複排除などの前処理を行います。
配列名の命名規則: ヘッダには識別子と説明が含まれ、IDの一意性・分かりやすさが重要です。
データの再現性と共有: FASTAはシンプルで再現性が高く、研究成果の共有に広く使われます。