fastqファイルのクオリティをチェック - FastQC

QCとは

バイオインフォマティクスの解析では、通常シーケンサから出力されたリードの配列データを入力データとします。
このデータから、様々な解析を行い、生物学的な意味合いを見出すのですが、その前に、そのデータが本当に解析する価値のあるものなのか見極める必要があります。

通常、シーケンサーからはそのシーケンサが出力したリードのクオリティを示すレポートが一緒に出力されますが、
このレポートからは、シーケンサ依存の問題しか検出することはできません。

こういった処理をQC（クオリティーチェック）と呼びます。同じQCでもクオリティーの低いリードや、塩基配列を除去することを指すQC（クオリティーコントロール）を意味する場合もあるので注意しましょう。

FastQC はデータのQCに最もよく用いられている（と言っても過言でない）オープンソースのソフトウェアです。
シーケンス実験の品質をチェックするために便利な幾つかのプロットを生成してくれます。ちなみにjavaで書かれています。
出力されるプロットとしては、

などが挙げられます。こういったデータから、データのクオリティを判断し、
以降の解析において、

といった行動の指標にすることができます。

入力ファイルの拡張子からファイル形式を判断してくれます。

f:id:kimoppy126:20180920082333p:plain

以下のURLのDownload Nowからダウンロードできます。

コマンドでダウンロードする場合はwgetを使います。

wget "http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip"

ダウンロードしたら、解凍し、実行ファイルに実行権限を付与した後、実行ファイルへのシンボリックリンクをパスの通っている場所に通しましょう。

unzip fastqc_v0.10.1.zip /home/kimoton/src
cd /home/kimoton/src/FastQC
chmod +x fastqc
ln -s /home/kimoton/src/FastQC/fastqc /home/kimoton/bin

以下のコマンドを打ち、ヘルプメッセージが表示されればインストール完了です。

$ fastqc -h

単にfastqcと打つと、GUI画面が開きます。

$ fastqc

f:id:kimoppy126:20180919220227p:plain
左上のFileタブからファイルを選択すると、、

f:id:kimoppy126:20180920083530p:plain

解析結果のレポートを見ることができます。

以下のようにオプションと解析対象のファイルを引数に与えて実行します。
ワイルドカード（*）を用いれば複数ファイルを一気に解析できたりします。

$ fastqc -t 4 -o fastqc_results/ *.fastq.gz

option	description
-o	解析結果の保存先ディレクトリを指定する。
--nogroup	リードが 50 bp よりも長い場合、FastQC は 3' 末端にある塩基を束ねて解析を行う。--nogroup を付けることによってこれらの塩基を束ねずに 1 ポジションごとに処理する。
-f	入力ファイルのフォーマットを指定する。拡張子からファイル形式は認識されるが、想定されていない拡張子の場合、 fastqで読み込まれる。
-t	使用するスレッド数（CPU 数）。
-c	コンタミが想定されている配列がある場合、それらコンタミ配列をタブ区切りのテキストファイルに保存してから、-c オプションで指定する。
-a	アダプター配列が使われている場合、そのアダプター配列をタブ区切りテキストに保存してから、-a オプションで指定する。
-k	リードの Kmer を解析する際に必要な Kmer の長さを指定する。デフォルトは 7 。