バイオインフォマティクスを始めるにあたって、RNA-seqのデータ解析をしてみたいけど、自分の目的に合うデータが探したい(そんなにデータ数が多くなくて、意味がわかるデータ、など)。
しかしながら、どうやって検索していいかわからない。
そのような状況の人(かつての自分)のために、本記事ではGEOを使ってRNA-seqのデータを検索する方法を解説します。
GEOとは
Gene Expression Omnibus (GEO)は、NCBIが提供する、遺伝子発現データを集めた公開データベースです。
GEOには15,000種以上の生物から10万以上のサンプルの数百万の遺伝子発現データセットが登録されており、生命科学研究者にとって必須のツールとなっています。
GEOでは、以下のような機能を利用できます。
- 遺伝子発現データの検索・閲覧・ダウンロード: 遺伝子名、疾患名、実験条件など様々な条件でデータセットを検索し、詳細情報やデータファイルを閲覧・ダウンロードすることができます。
- データ分析ツール: マイクロアレイデータやRNA-seqデータの分析に役立つ様々なツールを提供しています。
- データの投稿: 独自の遺伝子発現データを投稿し、公開することができます。
- データの共有: データセットにDOIを割り当てたり、ソーシャルメディアで共有したりすることで、他の研究者とデータを共有することができます。
GEOの使い方
GEOでキーワード検索する
早速、GEOを使ってRNAseqデータを検索してみましょう。
まずは以下のリンクからGEOのサイトにアクセスします。
下図の画面にアクセスできたら、検索バーにキーワードを入力します。
今回は糖尿病に関するデータを検索するため、「diabetes」と入力します。
Searchを押下すると、GEO DataSets DatabaseとGEO Profiles Databaseの2つでヒットした数字が出てくるので、上のGEO DataSets Databaseの数字のリンクをクリックします。
RNA-seqデータを絞り込む
下図のような画面に移動することができたら、ここからRNAseqのデータを絞り込んでいきます。
左側にあるStudy type > Customizeをクリックし、出てきたメニューからExpression profiling by high throughput sequencingにチェックを入れ、showをクリックします。
これで左側のStudy typeの箇所にExpression profiling by high throughput sequencingが出現するので、クリックしてフィルターをかけます。
検索でヒットしたものの中で、15 Samplesとサンプル数が少なめで解析がしやすそうなデータセットを今回は選んで詳細ページに移動します。健常者と糖尿病の遺伝子発現を比較しているデータセットであることが読み取れます。
同じ検索結果が見つからない場合は以下のリンクから今回選択したデータセットの詳細ページにアクセスできます。
データセットを確認する
GSE154881の詳細ページでは、データセットに関する様々な情報を確認することができます。
こちらの詳細ページから解析済みの遺伝子発現量マトリクスのテーブルをダウンロードすることができますが、今回はRNAseqの生データを取得するためSRA Run Selectorのリンクに遷移します。ページ下部にあるSRA Run Selectorをクリックします。
SRA Run Selectorの使い方
SRA Run Selectorに移動すると、今回のRNAseqデータに関する情報を確認することができます。同じ画面に到達しない場合は、下記のリンクからアクセスすることができます。
GSE154881と紐づく実験情報のSRA Run Selectorの画面となります。
フィルターをかける
SRA Run Selectorというだけあり、必要なデータを選択することができます。今回の実験には全部で15のサンプルがありますが、Healthy volunteerとType 2 Diabetesから3サンプルずつチェックを入れ選択してみます。
Accession Listをダウンロードする
チェックを入れることができたら、selectedの欄のAccession Listを押下することで、SRR_Acc_List.txtというSRR番号のリストが記載されたファイルをダウンロードすることができます。
該当のFASTQファイルを入手したい場合は、ダウンロードした情報をもとにfasterq-dumpで入手することができます。
ぴよこ FASTQファイルをダウンロードしたくてNCBIのサイトをうろうろしてるんだけど、全然見つからない(汗) まさる博士 NCBIのSRAでは、FASTQファイルはブラウザからは[…]
おわりに
今回は、GEOを使ってRNAseqのデータを検索する方法を解説しました。
バイオインフォマティクスの手始めにRNAseqの解析をしてみたいと思った場合に自分に合うデータをGEOで探してみてください!