fasta形式とは?初心者にもわかる使い方ガイド共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
fasta形式とは?初心者にもわかる使い方ガイド共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


fasta形式とは?基本をおさえる

fasta形式は生物情報のデータを扱うときに使われる、とても基本的なテキスト形式です。主に遺伝子の配列やタンパク質の連中を表すのに用いられ、人間にも機械にも読みやすい特徴があります。

この形式はバイオインフォマティクスの世界で広く採用されており、BLAST や多くの配列解析ソフトウェアで標準的に読み込むことができます。初心者の方にも理解しやすい理由は、特別な記号が少なく、ファイルはテキストだけで構成されているからです。

基本の構造

FASTA形式の基本はとてもシンプルです。1つのシーケンスにつき、次の2つの要素から成り立っています。

1) ヘッダ行: 行の先頭に「>」が付き、シーケンスのIDや説明が入ります。例としては >seq1 の説明 のような形です。

2) 配列データ: ヘッダ行の下に、実際の文字列データが続きます。遺伝子配列ならアルファベットの A C G T など、タンパク質配列なら 20 種のアミノ酸コードが並びます。長い配列は複数行に分かれて表記されることが多いです。

簡単な例

以下は単純な FASTA の例です。実際のファイルではこのように複数のシーケンスを1つのファイルに並べることがあります。

1行目: >seq1 これは説明です

2行目: ATGCGTACGTA

3行目: CGTACGTA

1行目: >seq2 別の配列

2行目: GGCATGCA

3行目: TTGCA

なぜヘッダが重要か

ヘッダ行にはシーケンスを特定するIDが入っています。IDはデータベースと照合したり、論文中で参照したりする際の鍵になります。IDだけでなく説明を入れておくと後で探しやすく、どのサンプルか、どの実験条件かなどを思い出しやすくなります。

FASTA形式の利点と注意点

メリットとしては、人にも機械にも読みやすい点と、ほとんどの解析ツールが対応している点が挙げられます。一方で、品質情報が含まれないため配列の信頼度を表す情報は別ファイル(例 FASTQ など)で管理するケースが多いです。

ファイルの使い方と実践のコツ

実務では、ファイル拡張子として .fasta や .fa が使われます。解析ソフトに渡す前に、ヘッダのIDが重複していないか、文字種が英字だけか、改行の位置が不規則で読みにくくなっていないかを確認します。

配列は一般に大文字のアルファベットで表現され、N など未知の塩基を表すコードも使われます。長い配列を1行に書くのではなく、複数行に分けて書くのが読みやすさのコツです。多くのツールは一定の文字数ごとに改行されていることを前提にしています。

表で押さえる要点

要素説明
ヘッダ行先頭が「>」で始まり、IDと任意の説明を含む
配列データヘッダ行の下に続く文字列。複数行に分かれて記載されることが多い
ファイル名通常 .fasta または .fa の拡張子を使用

FASTQとの違い

よく混同されがちなFASTQは配列データに加えて品質情報をもつ形式です。一方でFASTA形式には品質情報がなく、配列そのものだけを扱います。学習用にはFASTQとFASTAを区別して覚えるとよいでしょう。

実務でのまとめ

初学者のうちは、1つのファイルに複数のシーケンスを入れて練習すると良いでしょう。まずはヘッダのIDを読んで、続く配列を確認する練習をしてみてください。ファイルの整合性を保つこと、ヘッダと配列が対応していることを確認することが大切です。


fasta形式の同意語

FASTA形式
DNA・RNA・タンパク質の配列データを表す、ヘッダ行(先頭が '>')と配列データ行で構成される、テキストベースのフォーマット。
FASTAフォーマット
同じ意味の別表現。配列データをテキストで保存する、広く使われる表現形式
FASTAファイル
FASTA形式で保存されたデータを格納したファイルのこと。拡張子は .fasta または .fa が一般的。
FASTAテキスト形式
テキストとして表現されるFASTA形式の呼称。バイナリではなく文字データで配列を表します。
FASTA配列形式
配列データをFASTAとして表現する別の呼び方。基本構造は同じです。
FASTA標準形式
FASTA形式の標準的な呼称。研究論文やツール説明で使われることがあります。
ヘッダ付き配列データ形式
各シーケンスに先頭のヘッダ行('>')が付く、配列データを含むテキスト形式の総称です。
ヘッダ付き配列ファイル形式
ヘッダ付きの配列データを格納するファイル形式を指す言い方です。

fasta形式の対義語・反対語

非FASTA形式
FASTA形式以外のシーケンスデータ表現。ヘッダ行の仕様やシーケンスの記述方法が異なる別の形式のことを指します。
ヘッダなし生データ形式
ヘッダ行のない、単純な連続文字列でシーケンスを表す形式。FASTAの「>ヘッダ」行を使わない点が対極です。
バイナリ形式
テキストではなく0と1の組み合わせでデータを表す形式。人間には読みづらく、機械処理が中心です。
CSV形式
カンマで区切る表形式。配列データを横並びに整理する用途で使われ、FASTAとは使い方が異なります。
TSV形式
タブで区切る表形式。CSVと同様に、データを表として整理します。
XML形式
タグでデータを階層的に表現するマークアップ言語。FASTAの平坦なテキストと違います。
JSON形式
キーと値を組み合わせてデータを構造化するテキスト形式。データの意づけが明示的なのが特徴です。
FASTQ形式
FASTQはFASTAと同じくDNAシーケンスを記述しますが、各塩基に品質スコアがつく点が特徴。用途が異なる別形式です。
GFF/GTF形式
遺伝子の注釈情報を表すテキスト形式。配列そのものではなく、機能情報を別ファイルで管理します。
圧縮FASTA
元データはFASTA形式ですが、gzipなどで圧縮して保存・転送する形。可読性は落ちますが、容量を抑えられます。

fasta形式の共起語

FASTA
生物情報学で広く使われる、DNA/RNAまたはアミノ酸の配列をテキストで表すファイルフォーマット。ヘッダ行と配列データ行から構成される。
FASTAファイル
FASTA形式のファイル自体を指す言い方。複数のエントリを連ねて格納されることが多い。
拡張子 .fasta
FASTA形式のファイルの拡張子の一つ。ファイル名の末尾に付くことが多い。
拡張子 .fa
FASTA形式の別拡張子。短く使われることがある。
拡張子 .fas
FASTA形式の別拡張子。地域やツールによっては見かけることがある。
ヘッダ行
各配列エントリの先頭行。'>'で始まり、識別子や説明が含まれる。
defline
ヘッダ行の別称。識別子と説明を連結したラインの呼称。
シーケンスID
ヘッダ行に含まれる一意のID。NCBIやUniProtなどの参照IDとして使われる。
識別子
ヘッダ行のID部分。エントリを一意に識別する文字列。
説明文
ヘッダ行のIDに続く説明テキスト。任意の説明を入れられることが多い。
核酸配列
FASTAに格納される可能性のあるDNAやRNAの塩基配列。
DNA配列
オキシリボ核酸の塩基配列が入る場合の表現。
RNA配列
リボ核酸の塩基配列が入る場合の表現。
アミノ酸配列
タンパク質のアミノ酸配列が入る場合の表現。
複数の配列
1つのファイルに複数のエントリ(配列)を格納できる特徴。
配列データ
配列そのものを指す総称。核酸・アミノ酸のデータを含む。
テキストファイル
中身はテキスト形式。人にも機械にも読み取れる形式。
ASCII文字
FASTAは主にASCII文字セットで表現される。
生物情報学
FASTA形式はこの分野で標準的なデータフォーマット
ツール/ライブラリ
Biopython、BioPerl、BioJavaなど、FASTAを読み書きするためのソフトウェア群の総称。
Biopython
PythonでFASTAファイルを扱う代表的なライブラリの1つ(SeqIOなどを含む)。
BioPerl
PerlでFASTAを扱う代表的なライブラリ
FASTQ
別の一般的な配列データフォーマット。品質情報を含む点がFASTAと異なる。比較対象として頻繁に言及される。
BLAST
配列検索ツール。FASTA形式のデータを入力として使われることが多い。
GenBank
別の塩基配列データベース。FASTA形式でのデータのやり取りが行われることがある。
NCBI
米国の生物学データベース機関。FASTAデータの発信元・参照先として頻繁に登場する。
UniProt
タンパク質データベース。FASTA形式でのエクスポート・インポートが一般的。
シーケンスエントリ
1つのヘッダ行とその後の配列データのセットを指す。
エントリIDと説明の結合
ヘッダ行の形式。'>ID 説明'のように表現されることが多い。

fasta形式の関連用語

FASTA形式
核酸配列やアミノ酸配列をテキストで表現する標準的なファイル形式。ヘッダー行と配列行で1レコードを表す。
FASTAファイル
FASTA形式の実ファイル。拡張子として .fa / .fasta などが使われる。
マルチFASTA
1つのファイルに複数のFASTAレコードを含む形式で、複数の配列を順に記述する。
ヘッダー行
各レコードの先頭行で '>' で始まり、識別子と説明が含まれる。
アクセッションID
ヘッダーの先頭語として使われる識別子(アクセッション番号・識別子)はツール間の参照に用いられることが多い。
説明/ディスクリプション
ヘッダーのアクセッションIDの後に続く任意の説明文。ツールによっては無視されることがある。
defline
ヘッダー行の別名で、IDと説明を含む定義ラインとして扱われる。
核酸配列
DNAやRNAの塩基配列を表す。文字はA, C, G, T/U などを用いることが一般的。
アミノ酸配列
タンパク質を構成するアミノ酸の並びを表す配列。
IUPAC不確定塩基コード
N, R, Y など1文字で複数の塩基を表すコード。FASTA内で使われることがある。
行長/改行幅
配列は人が読みやすいように一定幅ごとに改行されることが多く、60〜80文字程度が一般的。
ファイル拡張子
FASTA形式のファイルに付く代表的な拡張子として .fa, .fasta, .faa, .fna などがある。
faidx
FASTAファイルの高速アクセス用インデックスを作成するツール。samtools faidx などで利用される。
FASTQとの違い
FASTQは配列に対応する品質スコアを併記する形式で、FASTAは配列のみを扱う点が異なる。
BLAST への入力
BLASTはFASTA形式の入力を受け付け、配列検索の基礎として広く用いられる。
Biopython SeqIO
PythonのBiopythonライブラリのSeqIOモジュールはFASTAファイルの読み書きを簡便に扱える。
R Biostrings
RのBioconductorパッケージBiostringsはFASTAの読み書き・操作をサポートする。
ヘッダーの識別子の取り扱い
ヘッダーの最初の空白までが識別子として扱われることが多く、ツール間で共通の解釈を求められる。
ASCII/大文字表現
FASTAは基本的にASCII文字を用い、配列は通常大文字で表される。
FASTA検証ツール
フォーマット整合性を確認する検証ツールやバリデータを使ってファイルの正しさを検証できる。
核酸用FASTAとアミノ酸用FASTAの区別
同じFASTA形式だが、核酸配列用とアミノ酸配列用で適用される文字セットが異なることがある。
拡張性の高い用途
FASTAは他の配列データフォーマットへ変換する基盤として広く利用される。

fasta形式のおすすめ参考サイト


学問の人気記事

トルクの単位・とは?初心者向けに徹底解説!なぜ単位が違うのかまで分かる共起語・同意語・対義語も併せて解説!
1838viws
引用・参考文献とは?初心者でもわかる使い方とポイント解説共起語・同意語・対義語も併せて解説!
661viws
ensureとは?初心者にもわかる意味と使い方を徹底解説共起語・同意語・対義語も併せて解説!
631viws
座標計算・とは?初心者向けガイドで完全マスター共起語・同意語・対義語も併せて解説!
582viws
示差走査熱量測定とは?初心者向けガイドで学ぶ基本と実験のポイント共起語・同意語・対義語も併せて解説!
488viws
no・とは?初心者にもわかる意味と使い方ガイド共起語・同意語・対義語も併せて解説!
464viws
絶縁抵抗値とは?初心者でも分かる測定の基本と安全のコツ共起語・同意語・対義語も併せて解説!
443viws
ナイロン樹脂とは?初心者にもわかる基本と用途ガイド共起語・同意語・対義語も併せて解説!
409viws
welchのt検定とは?不等分散のデータを比較する統計手法をやさしく解説共起語・同意語・対義語も併せて解説!
378viws
summarize・とは?初心者向け解説と使い方のコツ共起語・同意語・対義語も併せて解説!
368viws
穴加工・とは?初心者が知っておく基本と現場での活用ポイント共起語・同意語・対義語も併せて解説!
352viws
k型熱電対とは?初心者にも分かる基礎解説と活用事例共起語・同意語・対義語も併せて解説!
348viws
気圧の単位とは?中学生にもわかるPa・atm・bar・Torrの違いと換算ガイド共起語・同意語・対義語も併せて解説!
345viws
論述問題・とは?初心者にも分かる解説と解き方のコツ共起語・同意語・対義語も併せて解説!
332viws
3/4・とは?分数の基本を分かりやすく解く完全ガイド共起語・同意語・対義語も併せて解説!
314viws
100g・とは?初心者が今すぐ知っておきたい基本と使い方共起語・同意語・対義語も併せて解説!
307viws
z変換・とは?初心者が知っておくべき基礎と日常への応用共起語・同意語・対義語も併せて解説!
306viws
endnoteとは?研究ノートを整理する基本ツールの解説共起語・同意語・対義語も併せて解説!
300viws
洗浄バリデーションとは?初心者が押さえる基本と実務のポイント共起語・同意語・対義語も併せて解説!
276viws
pastとは?初心者向けガイド:意味・使い方・例文を徹底解説共起語・同意語・対義語も併せて解説!
250viws

新着記事

学問の関連記事