深層学習を用いた汎用的なVariant Caller - DeepVariant

今回読むのはGoogleのDeepVariantに関する論文。
Googleのhealthcareに対する取り組みとして、Google AI Blogでも紹介されており、Verily Life Sciencesと共同でのGoogle Brainチームによる2年以上の研究の成果となる。

Purpose

配列データにDeep learningを適用する例を把握する。
巷に聞くDeepVariantがどの程度の検出精度を持つのか調査する。

Title

Creating a universal SNP and small indel variant caller with deep neural networks

Author

Ryan Poplin, Pi-Chuan Chang, David Alexander, Scott Schwartz, Thomas Colthurst, Alexander Ku, Dan Newburger, Jojo Dijamco, Nam Nguyen, Pegah T. Afshar, Sam S. Gross, Lizzie Dorfman, Cory Y. McLean, Mark A. DePristo

Motivation

パラメトリックな統計モデルを用いた遺伝子変異検出は労力、時間がかかるにも関わらずミスコールが多く汎用性が低い。
より汎用性、精度の高い変異検出のアプローチが必要だった。

Superiority

precisionFDA主催のvariant calling challengeでhighest performance賞を受賞した。
異なる生物間・ゲノムビルド間で共通のモデルを使用可能（GRCh37を学習データとして使用したモデルをGRCh38に適用など）。
ヒト以外の生物→ヒトへの応用が可能。
シーケンスのプラットフォームに依らず精度の高い変異検出を行うことができる。
リードのstack画像を入力データとして、convolutional neural network (CNN)で学習を行う。
モデルの構築にゲノミクスの知識を必要としない。

Verification

指標には感度 (sensitivity)、適合度 (PPV)、F値を使用。それぞれの算出方法は以下の通り。

$Sensitivity = \frac{TP} {(TP + FN)}$

$PPV = \frac{TP}{(TP + FP)}$

$F1 = \frac{2 TP} {(2TP + FN + FP)}$

NA24385

CEPHの女性（NA12878）を使用して学習し、Ashkenazi人種の男性のサンプル（NA24385）に対してモデルを適用した。
十分に高い精度を得ることができ（SNP F1 = 99.95%, indel F1 = 98.98%）、2016年3月の Food and Drug Administration-sponsored variant calling Truth Challengeにて、 "highest performance" 賞を受賞した。

CHM1-CHM13

synthetic-diploidであるCHM1-CHM13を使用した検証においても、
パラメータを変えることなくDeepVariantがSNP、Indel両方においてより良い検出結果を示した。

その他ツール

GATK, FreeBayes, samtools, 16GT, Strelkaを使用してベンチマークを測定。
DeepVariantが最も精度が高く (4,652 errors) 、2番目に高かったツール (9,531 errors) の半分以下のエラー率を達成した。

その他プラットフォーム・実験デザイン

プラットフォーム、実験デザインを変えて検証。

10X Chromium 75x WGS
10X GemCode 34x WGS
Illumina HiSeq 31x WGS
Illumina HiSeq 60x WGS
Ion AmpliSeq exome
PacBio 40x WGS
SOLID SE 85x WGS
Illumina TruSeq exome

どの実験モデルついても適合度が低く、感度が高い結果となった。再度学習させたのち再度検証を行うと、感度を失うことなく、高い適合度を達成した。

Contribution

画像を使用したDeep Learningを応用することで、統計モデル、シーケンシングの種類、プロトコルに依存しない、汎用性が高く、精度の高く、手間のかからない変異検出が可能となった。

Discussion

f:id:kimoppy126:20190503082044p:plain:w400

pileup画像を読み込むことでDeep Learningの応用を可能にしている。
各ポジションにおいて、2倍体のgenotypeのうちどれに当てはまるかを推定する（{P(homozygous reference), P(heterozygous), P(homozygous variant)}）。コードは以下で公開されている。
https://github.com/google/deepvariant

染色体の一部を教師データに使用。残りを本番データに使用している。染色体間でバイアスはないのか。
SNP・indel候補の絞り込み → imgeに変換 → Inception v2 architectureにかけてCNN → もっともそれらしい塩基がヘテロな場合、それを出力
Verily Life Sciencesの GATK pipeline設定は公開されている？

Tools

GATK v3.3

言わずと知れたGATK Variant Caller
統計モデルを複雑に組み合わせている。
エラーのモデルにロジスティック回帰、リードの尤度の算出に隠れマルコフモデル、変異の同定に単純ベイズ分類器を、擬陽性変異の同定に混合ガウスモデルを使用している。

DistBelief

モデルを表現、ラベル付けしたデータを使用して学習、学習させたモデルを出力する際に使用。
モデルとしては、inception v2 アーキテクチャを使用。

GA4GH

Global Alliance for Global Health (GA4GH)
使用されたデータはVCFからこの形式に変換された。

hapdip

より緩慢な評価手法の1例として挙げられている。

vcfeval

より厳密な評価手法の1例として挙げられている。

Reference

ベンチマークの際に使用したプラットフォームの異なるサンプルについて
Zook, J. M. et al. Extensive sequencing of seven human genomes to characterize benchmark reference materials.
Cold Spring Harbor Labs Journals (2015).

ベンチマークの際に使用したsynthetic-diploidに関して
Li, H. et al. New synthetic-diploid benchmark for accurate variant calling evaluation.
bioRxiv https://doi.org/10.1101/223297 (2017).

Links

github.com