バイオインフォマティクスでは、ゲノムシーケンス、解析結果、アラインメント、バリアント(遺伝子多型)情報など、さまざまな生物学的データを扱います。各種ファイル形式は、データの内容や解析目的に応じて最適なフォーマットが選択され、効率的なデータ管理および解析を実現します。
本記事では、バイオインフォマティクスで扱う主要なファイル形式について解説します。
ファイル形式一覧
ここでは、以下のファイル形式の概要を解説します。
-
FASTA形式
-
FASTQ形式
-
SAM/BAM形式
-
VCF形式
-
GFF/GTF形式
-
BED形式
FASTA形式
FASTA形式は、DNA、RNA、タンパク質などの配列データを保存する最も基本的なファイル形式です。1970年代後半から広く利用され、シンプルで人間にも読みやすいテキスト形式であるため、データの交換や初期解析によく利用されます。
主な特徴
-
ヘッダー行
「>
」記号で始まり、配列の識別子や簡単な説明が記述される。 -
配列データ
ヘッダー行の後に、1文字ずつの配列が改行区切りで記述される。
複数の配列を一つのファイルに含めることができ、「マルチFASTAファイル」と呼ばれる。
用途
-
ゲノム、トランスクリプトーム、タンパク質データベースの構築・検索
-
シーケンスアライメント、BLAST検索、進化解析の入力ファイルとして
詳しくはこちら
FASTAとFASTQは、どちらも配列を扱うときに使われる代表的なファイル形式です。 本記事では、FASTAとFASTQの2つのファイル形式の内容について解説します。 FASTA形式とは FASTAは塩基配列やアミノ酸配列を記述す[…]
FASTQ形式
FASTQ形式は、FASTA形式の拡張として、シーケンスデータに加え、各塩基の品質(Phredスコア)情報を含むファイル形式です。次世代シーケンシング(NGS)データの標準フォーマットとして広く用いられています。
主な特徴
-
4行で1エントリ
1行目:@
で始まるシーケンス識別子と説明
2行目:生シーケンス
3行目:+
記号(オプションで識別子が繰り返される場合も)
4行目:各塩基に対応する品質スコア(ASCIIコードでエンコード)
用途
-
シーケンスリードの品質評価(トリミングやフィルタリング)
-
マッピング、アライメント、変異検出の前処理
詳しくはこちら
FASTAとFASTQは、どちらも配列を扱うときに使われる代表的なファイル形式です。 本記事では、FASTAとFASTQの2つのファイル形式の内容について解説します。 FASTA形式とは FASTAは塩基配列やアミノ酸配列を記述す[…]
SAM/BAM形式
SAM(Sequence Alignment/Map)形式は、シーケンスリードをリファレンス配列にマッピングした結果を保存するテキスト形式です。そのバイナリ版であるBAM形式は、圧縮されているため、ファイルサイズが小さく高速なアクセスが可能です。
主な特徴
-
SAM形式(テキスト)
ヘッダー行(@
で始まる)とアラインメント情報がタブ区切りで記述される11の必須フィールドを持つ。 - BAM形式(バイナリ)
SAMと同じ情報を持つが、圧縮されており、インデックス(.baiファイル)を作成することで特定領域への高速アクセスが可能。
用途
-
シーケンスリードのリファレンス配列へのマッピング結果の管理
-
変異検出、遺伝子発現解析、スプライシング解析などの下流解析
詳しくはこちら
次世代シーケンサーの解析において、SAM/BAM形式のファイル操作は非常に重要となります。 そこで本記事では、SAM/BAMファイルの読み込みや変換ができるPythonのライブラリであるpysamを使い方を解説します。 SAMファイ[…]
VCF形式
VCF(Variant Call Format)形式は、遺伝的変異(SNP、インデルなど)の情報を保存するためのテキストベースの標準フォーマットです。ヒトゲノムプロジェクトや他の大規模解析で広く採用されています。
主な特徴
-
ヘッダー部
##
で始まるメタ情報行と、#CHROM
で始まるカラム名の行が含まれる。 -
データ部
各変異について、染色体、位置、識別子、参照塩基、変異塩基、品質スコア、フィルタ結果、追加情報(INFO)がタブ区切りで記述される。サンプル情報が続く場合もあり、各サンプルごとに遺伝子型情報が含まれる。
用途
-
個体間の遺伝的多様性の解析、遺伝子型の推定
-
ゲノムワイド関連解析(GWAS)、臨床ゲノミクスでの変異解析
詳しくはこちら
VCF形式はゲノム解析において重要なファイルフォーマットであり、VCFPyはそれを扱うための効率的なPythonライブラリです。 本記事では、VCFファイルフォーマットの構造と特徴、およびVCFファイルをpythonで取り扱えうことのでき[…]
GFF/GTF形式
GFF(General Feature Format)およびGTF(Gene Transfer Format)は、ゲノム上の遺伝子、エクソン、プロモーターなどの機能部位やアノテーション情報を記述するための形式です。GTFはGFFの特定のバリエーションで、特に転写産物の構造を記述する際に厳格な規則が用いられます。
主な特徴
-
9フィールド(カラム)構成
-
配列ID(例:染色体名)
-
アノテーションのソース(例:予測プログラム名)
-
特徴(feature; 例:gene、mRNA、exon)
-
開始位置
-
終了位置
-
スコア(数値または
.
) -
ストランド(
+
または-
) -
フレームまたは位相(0,1,2または
.
) -
属性情報(セミコロンで区切られたタグ=値のペア)
-
用途
-
ゲノムアノテーション、遺伝子構造の解析
-
ゲノムブラウザ(UCSC、Ensemblなど)での視覚化
詳しくはこちら
GFF3 (General Feature Format version 3) ファイルは、ゲノムアノテーション情報を記録するための標準的な形式です。 本記事では、GFF3ファイルの基本的なフォーマット構造と、PythonからGFF3ファ[…]
BED形式
BED(Browser Extensible Data)形式は、ゲノム領域や特徴情報を簡易的に記述するためのテキスト形式です。基本的な3カラム(染色体、開始位置、終了位置)の情報に加え、オプションのフィールド(名前、スコア、ストランドなど)を追加可能です。
主な特徴
-
簡潔な構造
必須は染色体名、開始位置、終了位置の3項目。 - 柔軟性
下位解析や、ゲノムブラウザでの表示に適しており、広範囲の領域抽出やピーク検出などに利用される。
用途
-
ゲノム領域の可視化(例:ChIP-seqピーク、エクソン領域の抽出)
-
各種ツールによる領域操作、統計解析
詳しくはこちら
BEDファイルは、ゲノム上の位置情報を表現するのによく使われるファイルフォーマットであり、ゲノムブラウザによる可視化などで使われます。 本記事では、BEDファイルフォーマットの構造とともに、pythonかBEDファイルを操作することができ[…]
まとめ
本記事では、バイオインフォマティクスにおける代表的なファイル形式(FASTA、FASTQ、SAM/BAM、VCF、GFF/GTF、BED)について、各形式の構造・特徴・用途を概説しました。
実際に様々なデータを見ることで、ファイル形式への理解を深めておくと、データを解析するときに役立ちます。