

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
gencodeとは?
gencodeとは遺伝子の注釈データを公開しているプロジェクトの名前です。生物学の研究で遺伝子の場所や働き、他の遺伝子との関係を正確に知るためには、信頼できる遺伝子の「地図」が必要です。gencodeはその地図づくりを目指しており、人間とマウスの遺伝子情報を網羅的に整理しています。研究者はこのデータを使ってRNAの発現を調べたり、新しい遺伝子の候補を探したりします。
なぜ gencode が重要なのか
研究において遺伝子名や機能の表記は研究ごとに違いがちです。gencodeは標準化された遺伝子注釈を提供することで、異なる論文やデータベース間の整合性を高めます。これによりデータの再現性が上がり、学術的な作業がスムーズになります。
どんなデータが含まれているのか
GENCODEのデータには以下のようなものが含まれます。遺伝子の位置情報、転写産物の情報、エクソンの境界、発現に関わる情報などが整理されています。データは通常 GTF または GFF3 形式で公開され、リリースごとに更新されます。
使い方の基本
遺伝子データを使うときは、まず公開元のサイトから最新のリリースをダウンロードします。次に解析ソフトウェアに取り込んで、遺伝子の位置を参照することで解析を進めます。gencodeのデータは多くの解析パイプラインに対応しており、ヒトやマウスのゲノム研究で広く使われています。
ファイル形式と実例
以下はよく使われるファイル形式の例です。
| 項目 | 説明 |
|---|---|
| GTF/GFF3 | 遺伝子の位置や属性を記述する標準形式 |
| FASTA | 遺伝子配列そのものを表す形式 |
| リリース番号 | GENCODE の更新版を識別する番号 |
このように gencode は研究データの基盤となる地図を提供します。初心者の方は、まず公式サイトの説明ページで用語を整理し、ダウンロードするファイルの種類を確認するとよいでしょう。データが大きいので、ダウンロード時には通信環境を整えることも大切です。
また、データの扱いにはいくつかの注意点があります。リリースごとの違いを理解し、解析の手順をメモしておくことが重要です。最新のリリースを使うべきですが、再現性のためには過去のリリース番号を文献に明記しておくとよいでしょう。公式サイトには日本語の情報もありますが、専門的な用語は英語のページを併用することが役立つ場面が多いです。
最後に、gencode のデータを実務で使うときは、データの出典・バージョン管理を徹底しましょう。解析パイプラインで同じリリース番号を固定することで、後から結果を再現しやすくなります。これらの基本を踏まえれば、初心者でも遺伝子データの読み解きに自信をもち、研究の第一歩を確実に踏み出せます。
gencodeの同意語
- 遺伝子コード
- DNAの3文字コドンがどのアミノ酸へ翻訳されるかを決定する、生物の遺伝情報の基本的な暗号体系。
- コドンコード
- コドンとアミノ酸の対応を表す、遺伝子コードの主要な要素。
- アミノ酸コード
- コドンとアミノ酸の対応表全体を指す表現。遺伝子コードの一部を指す場合も多い。
- 遺伝情報コード
- 遺伝子情報の解読に使われる幅広いコードの総称。DNA/RNAの情報がどのように機能するかを示す。
- 遺伝子暗号
- 遺伝子情報がアミノ酸へ翻訳される過程を、暗号になぞらえて表現した語。
- 生物学的コード
- 生物の遺伝情報処理に関わる、広い意味のコードの総称。
- ゲノムコード
- ゲノム全体の情報を読み解く際に用いられる、遺伝子コードの拡張的表現。
- GENCODEプロジェクト
- 遺伝子注釈データを提供する、GENCODEという名のプロジェクト。実務的にはGENCODEデータのことを指す場合が多い。
gencodeの対義語・反対語
- 非遺伝コード
- 遺伝コードという概念に対して、それを用いない、または関係が薄い別の概念を指す表現。
- 非コード領域
- 遺伝情報のうち、タンパク質へ翻訳されない領域を指す。遺伝コードの対比として使われることがある概念。
- デコード
- コードを解読・読み解く行為。遺伝コードという「コード化された情報」を解釈する動作を指す場合など、対義語的な意味で使われる名詞。
- 非符号化
- 符号化(コード化)していない状態を表す語。情報をコードとして扱わないことを示す表現。
- ノンコード
- コードを持たない・コードではない状態を指す略語的表現。
- コードレス
- コード自体が存在しない、あるいは用いられない状態を指す表現。比喩的にも使われることがある。
gencodeの共起語
- GENCODE
- ヒト・他の生物の遺伝子注釈を網羅的に提供するデータセット・プロジェクト。ENCODEと連携して使われることが多い。
- ENCODE
- DNA要素の機能を総合的にカタログ化する大規模研究プロジェクト。GENCODEなどの注釈データと組み合わせて使われる。
- 遺伝子注釈
- ゲノム上の遺伝子の位置・名称・転写産物・エクソン・イントロンなどを記録した説明情報。
- 転写産物
- 遺伝子から転写されるRNA分子。エクソンの組み合わせごとにアイソフォームが生まれる。
- エクソン
- 遺伝子を構成する連結されたコード配列の基本単位。エクソンがつながって転写産物を作る。
- イントロン
- 遺伝子内の非コード領域で、スプライシングを経て成熟転写物に取り除かれる部分。
- タンパク質コード遺伝子
- タンパク質をコードする遺伝子。大半のGENCODE注釈はこのカテゴリを含む(coding genes)。
- 非コードRNA
- タンパク質をコードしないRNA分子。miRNA、lncRNA、tRNA、rRNAなど。
- アノテーション
- 遺伝子や転写産物の機能・位置・関係を付与するデータ化作業。
- トランスクリプトーム
- サンプル内に発現する全転写産物の総体。
- アイソフォーム
- 同じ遺伝子由来でも異なる転写産物の別バージョン(例:別のエクソン組み合わせ)。
- CDS
- 翻訳の対象となるコード配列(Coding Sequence)。タンパク質のアミノ酸配列の元になる。
- 偽遺伝子
- 過去は機能していたが現在は機能が失われた、機能喪失遺伝子のこと。
- ヒトゲノム
- 人間の全ゲノム情報。ヒトの遺伝情報の総体。
- GRCh38
- ヒトの標準参照ゲノムアセンブリの一つ。GENCODEはこれをベースに注釈を提供することが多い。
- Ensembl
- 遺伝子注釈データベース。GENCODEと併用され、遺伝子情報を統合して提供する。
- GTF形式
- 遺伝子注釈を表すテキスト形式のファイル。エクソン/イントロン情報を含む。
- GFF3形式
- ゲノム注釈データの標準フォーマット。広く使われる注釈ファイル形式。
- RNA-Seq
- 全転写物の発現量を測定・分析する高スループットシーケンシング技術。
- 染色体
- 遺伝情報が格納される構造体。ヒトゲノムの各染色体上に遺伝子が配置される。
- リファレンスゲノム
- 比較・注釈の基準となる標準的なゲノム配列。GENCODE注釈はこれを参照して作成される。
- ゲノム注釈プロジェクト
- ゲノム全体の遺伝子・機能要素の位置・性質を整理・公開する国際的な取り組み。
gencodeの関連用語
- GENCODE
- GENCODEはヒトを含む生物の遺伝子アノテーションを網羅的に提供するプロジェクト。タンパク質コード遺伝子・ncRNA・偽遺動子を含む高品質な遺伝子モデルを作成します。Havanaによる手動注釈とEnsembl/UCSCなどへの統合で広く使われています。
- Ensembl
- GENCODEの注釈を基盤に公開されるゲノムデータベースとブラウザ。遺伝子モデル・機能情報を統合して提供します。
- UCSC Genome Browser
- 米国UC Santa Cruzが提供するゲノムブラウザ。GENCODEの遺伝子トラックを閲覧できます。
- Havana
- GENCODEの手動注釈を担当する研究グループ。高品質な注釈の作成に寄与します。
- RefSeq
- NCBIが提供する別系統の遺伝子アノテーションセット。GENCODEとは異なる命名体系・基準を持つことがあります。
- Protein-coding gene
- タンパク質をコードする遺伝子。GENCODEの主要カテゴリの一つです。
- Non-coding RNA
- タンパク質をコードしないRNAの総称。多様なクラスが含まれます。
- Long non-coding RNA
- 長さが約200nt以上の非コードRNA。遺伝子調節などに関与します。
- microRNA
- 約22nt程度の小さなRNA。遺伝子発現をポスト転写レベルで制御します。
- Small nucleolar RNA
- 核内でRNAの化学修飾を担う小さな非コードRNAです。
- Small nuclear RNA
- スプライシングなどに関与する小型RNAです。
- Transfer RNA
- アミノ酸をリボソームへ運ぶRNAです。
- Pseudogene
- 機能を失った遺伝子の痕跡。Processed / Duplicated / Unitary などのサブタイプがあります。
- Processed pseudogene
- リバース転写によって作られた偽遺伝子です。
- Duplicated pseudogene
- 遺伝子の重複から生じた偽遺伝子です。
- Unitary pseudogene
- 他の遺伝子のコピーを持たずに機能喪失した偽遺伝子です。
- Transcript
- 遺伝子から転写されたRNA。複数の転写産物(アイソフォーム)を持つことが多いです。
- Isoform
- 同じ遺伝子由来の異なる転写産物です。
- Exon
- 転写され、成熟RNAに含まれる配列の区画です。
- Intron
- エクソンの間にある非翻訳領域です。
- CDS (Coding sequence)
- タンパク質へ翻訳される配列部分です。
- 5' UTR
- 翻訳開始前の非翻訳領域です。
- 3' UTR
- 翻訳後の非翻訳領域です。
- Transcription start site
- 転写が開始するDNAの位置です。
- GTF / GFF3 formats
- 遺伝子アノテーションの標準フォーマット。GENCODEはこれらで提供されます。
- Genome assembly
- 参照ゲノム配列のバージョン。例: GRCh38 / hg38、GRCh37 / hg19。
- VEP
- Variant Effect Predictor。遺伝子変異の影響を予測するツールです。
- STAR
- RNA-seqデータのアライメントツール。GENCODE注釈を活用します。
- HISAT2
- 別のRNA-seqアライメントツールです。
- gffcompare
- GFF/GTFファイルを比較・統合するツールです。GENCODEデータの検証にも使われます。
- Biotype
- 遺伝子・転写産物の分類名。例: protein_coding、lncRNA、miRNA など。
- GENCODE release
- GENCODEの公開リリース版。新しいリリースが定期的に出ます。
- Genomic coordinates
- 染色体上の位置情報(chr・start・end)です。



















