SAM format

SAM format

f:id:kimoppy126:20180413065958p:plain

リードをマッピングした結果の情報を示すのにSequence Alignment/Map (SAM) formatという形式がよく使われる。

SAM format は@から始まるheader行と、それに続く以下の11列から構成されるアライメントセクションによって構成される。 アライメントセクション中の各行はリード1本1本のマッピング結果を示している。

QNAME:
リードの名前

FLAG:
mapped/unmapped read, pairing,などを示すビットごとの数値。

RNAME:
リファレンス配列の名前。マッピングされなかったリードは * となる。

POS:
左から数えて最初にマッチした塩基のポジション。マッピングされなかったリードは0となる。

MAPQ:
マッピングクオリティー

CIGAR:
リファレンスに対し、どのようにアライメントされたかを示す。これは複数の要素を含む。各要素はoperator とnumberからなる。

MNAME:
paired-endの場合、もう一方のリードの名前を示す。"="の場合、もう一方のリードも同じ名前であることを示す。

MPOS:
最もよくマッピングされたポジションを示す。a number indicating the left most mapping position of the mate.

TLEN:
一つの要素からなる場合、他にも同様にマッピングされたリードが存在する場合、左側のリードの最もマップされた塩基から右側の最もマップされた塩基までの長さが計算される。

SEQ:
リファレンスとして使用されるリード中の配列。"*" でない場合、CCIGAR列のM/I/S/=/Xを足したものになる。

QUAL:
リードのクオリティー。fasta/q format中のものと同じ。

soft-clipping, hard-clipping

clipped の時点でアライメントはされたがくっつかなかったことを表す。その中で、くっつかなかった配列が、
→soft-clipping : リファレンス配列中に存在しない
→hard-clipping : リファレンス配列のどこかにその配列は存在する(キメラリードなど)。
いずれの場合もcoverageの計算には用いられるべきではない。

正しいかどうかは不明だけどこんな理解をしている。