

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
fasta形式とは?基本をおさえる
fasta形式は生物情報のデータを扱うときに使われる、とても基本的なテキスト形式です。主に遺伝子の配列やタンパク質の連中を表すのに用いられ、人間にも機械にも読みやすい特徴があります。
この形式はバイオインフォマティクスの世界で広く採用されており、BLAST や多くの配列解析ソフトウェアで標準的に読み込むことができます。初心者の方にも理解しやすい理由は、特別な記号が少なく、ファイルはテキストだけで構成されているからです。
基本の構造
FASTA形式の基本はとてもシンプルです。1つのシーケンスにつき、次の2つの要素から成り立っています。
1) ヘッダ行: 行の先頭に「>」が付き、シーケンスのIDや説明が入ります。例としては >seq1 の説明 のような形です。
2) 配列データ: ヘッダ行の下に、実際の文字列データが続きます。遺伝子配列ならアルファベットの A C G T など、タンパク質配列なら 20 種のアミノ酸コードが並びます。長い配列は複数行に分かれて表記されることが多いです。
簡単な例
以下は単純な FASTA の例です。実際のファイルではこのように複数のシーケンスを1つのファイルに並べることがあります。
1行目: >seq1 これは説明です
2行目: ATGCGTACGTA
3行目: CGTACGTA
1行目: >seq2 別の配列
2行目: GGCATGCA
3行目: TTGCA
なぜヘッダが重要か
ヘッダ行にはシーケンスを特定するIDが入っています。IDはデータベースと照合したり、論文中で参照したりする際の鍵になります。IDだけでなく説明を入れておくと後で探しやすく、どのサンプルか、どの実験条件かなどを思い出しやすくなります。
FASTA形式の利点と注意点
メリットとしては、人にも機械にも読みやすい点と、ほとんどの解析ツールが対応している点が挙げられます。一方で、品質情報が含まれないため配列の信頼度を表す情報は別ファイル(例 FASTQ など)で管理するケースが多いです。
ファイルの使い方と実践のコツ
実務では、ファイル拡張子として .fasta や .fa が使われます。解析ソフトに渡す前に、ヘッダのIDが重複していないか、文字種が英字だけか、改行の位置が不規則で読みにくくなっていないかを確認します。
配列は一般に大文字のアルファベットで表現され、N など未知の塩基を表すコードも使われます。長い配列を1行に書くのではなく、複数行に分けて書くのが読みやすさのコツです。多くのツールは一定の文字数ごとに改行されていることを前提にしています。
表で押さえる要点
| 要素 | 説明 |
|---|---|
| ヘッダ行 | 先頭が「>」で始まり、IDと任意の説明を含む |
| 配列データ | ヘッダ行の下に続く文字列。複数行に分かれて記載されることが多い |
| ファイル名 | 通常 .fasta または .fa の拡張子を使用 |
FASTQとの違い
よく混同されがちなFASTQは配列データに加えて品質情報をもつ形式です。一方でFASTA形式には品質情報がなく、配列そのものだけを扱います。学習用にはFASTQとFASTAを区別して覚えるとよいでしょう。
実務でのまとめ
初学者のうちは、1つのファイルに複数のシーケンスを入れて練習すると良いでしょう。まずはヘッダのIDを読んで、続く配列を確認する練習をしてみてください。ファイルの整合性を保つこと、ヘッダと配列が対応していることを確認することが大切です。
fasta形式の同意語
- FASTA形式
- DNA・RNA・タンパク質の配列データを表す、ヘッダ行(先頭が '>')と配列データ行で構成される、テキストベースのフォーマット。
- FASTAフォーマット
- 同じ意味の別表現。配列データをテキストで保存する、広く使われる表現形式。
- FASTAファイル
- FASTA形式で保存されたデータを格納したファイルのこと。拡張子は .fasta または .fa が一般的。
- FASTAテキスト形式
- テキストとして表現されるFASTA形式の呼称。バイナリではなく文字データで配列を表します。
- FASTA配列形式
- 配列データをFASTAとして表現する別の呼び方。基本構造は同じです。
- FASTA標準形式
- FASTA形式の標準的な呼称。研究論文やツール説明で使われることがあります。
- ヘッダ付き配列データ形式
- 各シーケンスに先頭のヘッダ行('>')が付く、配列データを含むテキスト形式の総称です。
- ヘッダ付き配列ファイル形式
- ヘッダ付きの配列データを格納するファイル形式を指す言い方です。
fasta形式の対義語・反対語
- 非FASTA形式
- FASTA形式以外のシーケンスデータ表現。ヘッダ行の仕様やシーケンスの記述方法が異なる別の形式のことを指します。
- ヘッダなし生データ形式
- ヘッダ行のない、単純な連続文字列でシーケンスを表す形式。FASTAの「>ヘッダ」行を使わない点が対極です。
- バイナリ形式
- テキストではなく0と1の組み合わせでデータを表す形式。人間には読みづらく、機械処理が中心です。
- CSV形式
- カンマで区切る表形式。配列データを横並びに整理する用途で使われ、FASTAとは使い方が異なります。
- TSV形式
- タブで区切る表形式。CSVと同様に、データを表として整理します。
- XML形式
- タグでデータを階層的に表現するマークアップ言語。FASTAの平坦なテキストと違います。
- JSON形式
- キーと値を組み合わせてデータを構造化するテキスト形式。データの意味づけが明示的なのが特徴です。
- FASTQ形式
- FASTQはFASTAと同じくDNAシーケンスを記述しますが、各塩基に品質スコアがつく点が特徴。用途が異なる別形式です。
- GFF/GTF形式
- 遺伝子の注釈情報を表すテキスト形式。配列そのものではなく、機能情報を別ファイルで管理します。
- 圧縮FASTA
- 元データはFASTA形式ですが、gzipなどで圧縮して保存・転送する形。可読性は落ちますが、容量を抑えられます。
fasta形式の共起語
- FASTA
- 生物情報学で広く使われる、DNA/RNAまたはアミノ酸の配列をテキストで表すファイルフォーマット。ヘッダ行と配列データ行から構成される。
- FASTAファイル
- FASTA形式のファイル自体を指す言い方。複数のエントリを連ねて格納されることが多い。
- 拡張子 .fasta
- FASTA形式のファイルの拡張子の一つ。ファイル名の末尾に付くことが多い。
- 拡張子 .fa
- FASTA形式の別拡張子。短く使われることがある。
- 拡張子 .fas
- FASTA形式の別拡張子。地域やツールによっては見かけることがある。
- ヘッダ行
- 各配列エントリの先頭行。'>'で始まり、識別子や説明が含まれる。
- defline
- ヘッダ行の別称。識別子と説明を連結したラインの呼称。
- シーケンスID
- ヘッダ行に含まれる一意のID。NCBIやUniProtなどの参照IDとして使われる。
- 識別子
- ヘッダ行のID部分。エントリを一意に識別する文字列。
- 説明文
- ヘッダ行のIDに続く説明テキスト。任意の説明を入れられることが多い。
- 核酸配列
- FASTAに格納される可能性のあるDNAやRNAの塩基配列。
- DNA配列
- デオキシリボ核酸の塩基配列が入る場合の表現。
- RNA配列
- リボ核酸の塩基配列が入る場合の表現。
- アミノ酸配列
- タンパク質のアミノ酸配列が入る場合の表現。
- 複数の配列
- 1つのファイルに複数のエントリ(配列)を格納できる特徴。
- 配列データ
- 配列そのものを指す総称。核酸・アミノ酸のデータを含む。
- テキストファイル
- 中身はテキスト形式。人にも機械にも読み取れる形式。
- ASCII文字
- FASTAは主にASCII文字セットで表現される。
- 生物情報学
- FASTA形式はこの分野で標準的なデータフォーマット。
- ツール/ライブラリ
- Biopython、BioPerl、BioJavaなど、FASTAを読み書きするためのソフトウェア群の総称。
- Biopython
- PythonでFASTAファイルを扱う代表的なライブラリの1つ(SeqIOなどを含む)。
- BioPerl
- PerlでFASTAを扱う代表的なライブラリ。
- FASTQ
- 別の一般的な配列データフォーマット。品質情報を含む点がFASTAと異なる。比較対象として頻繁に言及される。
- BLAST
- 配列検索ツール。FASTA形式のデータを入力として使われることが多い。
- GenBank
- 別の塩基配列データベース。FASTA形式でのデータのやり取りが行われることがある。
- NCBI
- 米国の生物学データベース機関。FASTAデータの発信元・参照先として頻繁に登場する。
- UniProt
- タンパク質データベース。FASTA形式でのエクスポート・インポートが一般的。
- シーケンスエントリ
- 1つのヘッダ行とその後の配列データのセットを指す。
- エントリIDと説明の結合
- ヘッダ行の形式。'>ID 説明'のように表現されることが多い。
fasta形式の関連用語
- FASTA形式
- 核酸配列やアミノ酸配列をテキストで表現する標準的なファイル形式。ヘッダー行と配列行で1レコードを表す。
- FASTAファイル
- FASTA形式の実ファイル。拡張子として .fa / .fasta などが使われる。
- マルチFASTA
- 1つのファイルに複数のFASTAレコードを含む形式で、複数の配列を順に記述する。
- ヘッダー行
- 各レコードの先頭行で '>' で始まり、識別子と説明が含まれる。
- アクセッションID
- ヘッダーの先頭語として使われる識別子(アクセッション番号・識別子)はツール間の参照に用いられることが多い。
- 説明/ディスクリプション
- ヘッダーのアクセッションIDの後に続く任意の説明文。ツールによっては無視されることがある。
- defline
- ヘッダー行の別名で、IDと説明を含む定義ラインとして扱われる。
- 核酸配列
- DNAやRNAの塩基配列を表す。文字はA, C, G, T/U などを用いることが一般的。
- アミノ酸配列
- タンパク質を構成するアミノ酸の並びを表す配列。
- IUPAC不確定塩基コード
- N, R, Y など1文字で複数の塩基を表すコード。FASTA内で使われることがある。
- 行長/改行幅
- 配列は人が読みやすいように一定幅ごとに改行されることが多く、60〜80文字程度が一般的。
- ファイル拡張子
- FASTA形式のファイルに付く代表的な拡張子として .fa, .fasta, .faa, .fna などがある。
- faidx
- FASTAファイルの高速アクセス用インデックスを作成するツール。samtools faidx などで利用される。
- FASTQとの違い
- FASTQは配列に対応する品質スコアを併記する形式で、FASTAは配列のみを扱う点が異なる。
- BLAST への入力
- BLASTはFASTA形式の入力を受け付け、配列検索の基礎として広く用いられる。
- Biopython SeqIO
- PythonのBiopythonライブラリのSeqIOモジュールはFASTAファイルの読み書きを簡便に扱える。
- R Biostrings
- RのBioconductorパッケージBiostringsはFASTAの読み書き・操作をサポートする。
- ヘッダーの識別子の取り扱い
- ヘッダーの最初の空白までが識別子として扱われることが多く、ツール間で共通の解釈を求められる。
- ASCII/大文字表現
- FASTAは基本的にASCII文字を用い、配列は通常大文字で表される。
- FASTA検証ツール
- フォーマット整合性を確認する検証ツールやバリデータを使ってファイルの正しさを検証できる。
- 核酸用FASTAとアミノ酸用FASTAの区別
- 同じFASTA形式だが、核酸配列用とアミノ酸配列用で適用される文字セットが異なることがある。
- 拡張性の高い用途
- FASTAは他の配列データフォーマットへ変換する基盤として広く利用される。
fasta形式のおすすめ参考サイト
- FASTA形式とは - Orbit Intelligence
- FASTAファイル/FASTA形式とは - OlvTools
- FASTAファイル/FASTA形式とは - OlvTools
- FASTA形式とは - Orbit Intelligence
- FASTAファイルについて #初心者 - Qiita



















