FASTQファイル - 塩基配列を格納するためのフォーマット

お疲れ様です。9月です。寒いです。

本日はバイオインフォマティクスの基礎の基礎。
FASTQファイルについて見ていきましょう。

ショートリードを生成するシーケンサーだと、だいだい <~200 bpの塩基配列を取得できます。
大抵の場合、シーケンサから出力されたデータは、まずFASTQファイルに変換されます。

なぜでしょう。

世界基準だからですかね。

とりあえずその程度普及しているフォーマットということです。

FASTQとは

FASTQ format is a text-based format for storing both a biological sequence (usually nucleotide sequence) and its corresponding quality scores.
~~~
recently become the de facto standard for storing the output of high-throughput sequencing instruments such as the Illumina Genome Analyzer.

Wikipedia

Fastqというのは、次世代シーケンサーからの出力データ（配列及びクオリティスコア）を保存するテキストベースのフォーマットです。今やこの業界のデファクトスタンダードといえるまで普及したフォーマットになります。

FASTA ? FASTQ?

同様の響きを持つフォーマットにFASTAなるものがあります。
DNAの塩基配列を格納する役割があるという意味では同じですが、FASTAはアミノ酸配でも使われます。 FASTAはFASTAというソフトウェアに由来していて、アライメントを行うためのフォーマットでした。これが一般的に普及して配列を格納するフォーマットとして使われていたりします。

FASTQファイルの基本構文

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36  
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC  
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36  
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

FASTQファイルのフォーマットでは、4行ごとに1本の配列を表します。
1行目：@から始まるIDと、その他配列のメタデータ。
2行目：塩基配列
3行目：+
4行目：Phredクオリティスコア（2行目の配列に対応）