【BioMartの使い方】geneIDとtranscriptIDの対応表を作成する

ぴよこ
RNA-seqのデータを解析したけど、結果が転写産物IDごとになってる。遺伝子ごとに変換したいんだけど、どうやってやればいいの?
まさる博士
それなら、EnsemblのBioMartを使うといいよ!

遺伝子の解析をしていると、geneIDやtranscriptIDを変換したり、遺伝子名に変換したいことってありますよね。そのためには、それぞれの対応表が必要です。

本記事では、EnsemblのBioMartというツールを用いて、geneIDとtranscriptIDの対応表を作成する方法について解説します。

BioMartとは

BioMartは、EMBL-EBI (欧州分子生物学研究所) によって開発されたWebベースのデータマイニングツールです。BioMartを使うことで、プログラミングの知識なしにEnsemblデータベースからデータを抽出することができます。

下記のリンクから、EnsemblのBioMartのサイトにアクセスできます。

BioMartの使い方

アクセスした下記の画面から、「BioMart data mining tool」のリンクに移動します。場合によっては、つながるのに時間がかかると思いますが、気長に待ちます。私の環境では、アジアのミラーサイトでアクセスがうまくいかないときは本家の方にアクセスするとうまくいくこともありました。

アクセスできたら、まずは「CHOOSE DATABASE」のプルダウンからデータベースを選択します。

ここでは、Ensembl Genes 111のヒトのリファレンスゲノムGRCh38.p14を選択しました。

次に、データセットの中から抽出したい情報を選択していきます。Attributes > Features > GENEの下記2項目にチェックを入れます。

  1. Gene stable ID
  2. Transcript stable ID

抽出したい項目にチェックを入れることができたら、上部のResultsタブを押下し、結果ページに移動します。移動すると下図のように目的の項目が抽出された表形式のデータが表示されています。

結果を出力して保存するためにはTSV(タブ区切り)など、形式を指定して出力します。

形式を指定できたら、Goのボタンを押します。

mart_export.txtというファイルが出力され、これでgeneIDとtranscriptIDの対応表は完成です。目的に応じてこのファイルを利用します。

今回の記事では、geneIDとtranscriptIDの対応表を作成する方法について解説しましたが、BioMartではバイオインフォマティクスの解析で必要となる多くの情報を取得することが実現できるはずです。

ぜひ、BioMartを色々触ってみて、必要な情報を取得してみてください!