chip-seqを理解する

ChIP-seqとは

Chromatin Immuno Precipitaton の略。
抗原抗体反応を利用して、抗原タンパク質が結合しているクロマチン構造を免疫沈降させ、クロマチン内に含まれるDNAを濃縮する手法。
ヒストンや転写因子に対して、それらを認識する抗体を取ってくる。

ゲノムワイドかつ網羅的にタンパク質と核酸との相互作用を検査することが目的で、
例えば、iPS細胞の転写調節因子がどの部位に結合しているのかを調べたいときに使う。

ChIP-seqの流れ

ChIP-seq一連の流れは、以下のようになっている。 マッピングまではRNA-seqと同じで、リード配列をリファレンス配列と照合する。 その後はピーク検出を行い、タンパク質と結合している DNA 上の結合部位を統計的に調べる。

シーケンス

リードのQC

マッピング (BWA, Bowtie2)

ピーク検出 (MACS1.3, MACS1.4, MACS2, SICER)

エンリッチメント解析

アルゴリズム関連

ChIP-seqで使用されるアルゴリズムの組み合わせで、結果がいろいろと変わるらしい。
検出したいピークの種類など、解析の目的に合わせて変化させる。

マッピングアルゴリズム

BWA

  • ミスマッチ、挿入、欠失をある程度許容してマッピングを行う。
  • マッピング率が高くなる傾向がある。

Bowtie2

  • 基本的に完全長をマッピングしようとする
  • マッピング率が低くなる傾向がある。

ピーク検出アルゴリズム

MACs

  • 5'若しくは3'からピーク検出、検出されたピーク同士の中心をピークとする。
  • そのバックグラウンドと比較した際の有意性を特定する。
  • ある程度ピークを仮定するため、ピークの長さは比較的短く、固定長になる。
  • 転写因子の検出向き。

SICER

  • DNAを200bp程のbinに区切り、マッピング、その結果有意にマッピングされなかったbinを除き、有意にマッピングされなかったbin同士をくっつける。
  • ピークの長さは比較的長く、不定長になる。
  • ヒストン修飾等の幅が広いピークの検出向き。

ChIP-seqからわかること

  • 近傍遺伝子の抽出とその機能解析(GO割り当て等)、パスウェイ解析
  • TSS (transcription start sites)の検出
  • ゲノムワイドな分布
  • モチーフ抽出

参考

https://biosciencedbc.jp/gadget/human/20150806_morioka.pdf

https://filgen.jp/Product/Bioscience5-seq/index38.html

http://togotv.dbcls.jp/20150525.html

http://togotv.dbcls.jp/20160606.html