バイオインフォマティクスを始めるときに、初心者が最初にぶつかる壁が環境構築です。解析を行うためには非常にたくさんのソフトウェアをインストールして使わないといけないケースが多くあります。
この記事では、Windowsのパソコンで簡単にバイオインフォマティクスの解析をする環境を準備する方法を解説します。
結論から言うと、自分のPCで手軽にバイオインフォマティクスの解析を始めるには、Dockerを使うのがおすすめです。
バイオインフォマティクスに関する書籍では、パソコンはMacをおすすめされているものが多いですが、Dockerを使えばWindowsでも違いを意識することなく解析する環境を用意することができます。
Macの場合は、こちらの記事を参考にしてください。
バイオインフォマティクスを始めるときに、初心者が最初にぶつかる壁が環境構築です。解析を行うためには非常にたくさんのソフトウェアをインストールして使わないといけないケースが多くあります。 この記事では、簡単にバイオイ[…]
Dockerとは
Dockerは「コンテナ」と呼ばれる仮想化技術を作成・実行するためのソフトウェアです。コンテナは隔離されたプロセスなのでホストOSを汚しません。そのため、コンテナを作成したり削除したりすることで、様々なツールを手軽に使うことができます。
Docker Desktopのインストール
Docker Desktop for Windowsのインストール
WindowsやMacでDockerを使うには、「Docker Desktop」と呼ばれるソフトウェアをインストールします。
Docker Desktopは、インストールが簡単でGUIでも使用できるため、気軽にDockerを使い始めることができます。
本記事では、Windowsを前提にインストール方法を紹介します。
Windows 11 Home
Docker Desktop : version 4.20.1
以下のリンクから「Docker Desktop for Windows」をダウンロードします。
以下のような手順で進めてください。
- 「Docker Desktop for Windows」をクリックし、インストーラーをダウンロード
- ダウンロードしたインストーラー(Docker Desktop Installer)を実行
- Add shortcut to desktopにチェックを入れて、「ok」をクリック
- インストールが完了したら、「Close and restart」ボタンをクリック
- 再起動後、Docker Desktopを起動し、Dockerの規約を確認し、問題なければ「Accept」をクリック
Docker Desktop起動
正常に起動すると以下のような画面が表示されます。
Docker Desktopの起動時に以下のようなエラー画面が出た場合は、指示に従って、WSL更新パッケージを適用します。
以下のリンク先からWSL2 Linuxカーネル更新プログラムパッケージをダウンロードします。
ダウンロードした「wsl_update_x64」をダブルクリックして実行します。
これで、Docker Desktopが使える状態となりました!
Dockerの使い方
早速、Dockerを使用してコンテナを作成・起動してみましょう!
Python環境が整ったコンテナを使用するには、PowerShellから以下のようにコマンドを実行します。
docker container run -it --rm python
すると、以下のようにpythonの対話モードが開始されます。ここで、-itは標準入出力をコンテナに結びつける(キー入力する場合)、–rmはコンテナを使い終わったら、コンテナを削除するオプションです。コンテナは使い終わったら削除するのが基本です。
Python 3.11.4 (main, Jun 14 2023, 18:15:32) [GCC 12.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>>
これだけでPython環境を用意することができました!
使い終わったら以下のコマンドでpythonの対話モードを終了させましょう。
>>> exit()
DockerイメージからSRA Toolkitを使う
実際にバイオインフォマティクスのツールをDockerで使用してみましょう!
SRA Toolkit
SRA Toolkitは公共データバンクのデータを扱うためのツールとライブラリパッケージです。
Docker Hubに登録されているイメージを使用します。
sratoolkitに含まれるfasterq-dumpコマンドでSRA (Sequence Read Archive) からシーケンスファイルをダウンロードし、FASTQ形式でデータを抽出します。
PowerShellから以下のように実行します。
docker container run --rm -v ${pwd}:/output -w /output pegi3s/sratoolkit:3.0.5 fasterq-dump -e 2 -p SRR000001
うまくいけば、現在のフォルダにSRR000001.fastq, SRR000001_1.fastq, SRR000001_2.fastqができているはずです。
Dockerを使わない場合、バイナリをダウンロードしてきて、パスを通すなど色々と面倒ですが、dockerを使うことで簡単にバイオインフォマティクスのツールを利用することができました。
最後に
Dockerを使うことで、簡単に環境を作成したら、削除したりできます。
ぜひ活用することで様々なツールを試してみてください!