DANN: a deep learning approach for annotating the pathogenicity of genetic variants

Purpose

個別化医療に向け、変異のpathogenicity (悪性) に関する関心は高まっている。
Deep Learningを使用したアプローチにより変異のpathogenicityをどこまで判断することができるのか把握する。

Title

DANN: a deep learning approach for annotating the pathogenicity of genetic variants

Author

Daniel Quang, Yifei Chen, Xiaohui Xie

Motivation

遺伝子変異、特にノンコーディング領域の変異に関して悪性の変異を同定するためにアノテーション付けを行うことは困難な問題。
support vector machine (SVM) にDeep Learningを応用することで、ノンコーディング領域のアノテーションにより特化したCADDを開発した。

Superiority

Combined annotation-dependent depletion (CADD) では、有害な変異の判別に線形 support vector machine (SVM) を使用している。
このモデルでは、非線形な関係性を捉えることができない。
DANNでは、CADDと同じ特徴量、データセットを使用しつつdeep neural network (DNN)を応用することで非線形な関係性をとらえ、より適合したモデルを構築することができる。

多くがノンコーディング箇所の変異であるデータセットを含む精度と分離度の向上を達成した。

Method of verification

3,326,573 変異に関してDANN、LR model(training には確率的勾配沈下法 (SGD) を使用)、SVMを比較した。
精度の基準には、receiver operating characteristic (ROC) 曲線から算出することのできる area under the curve (AUC) を使用した。
ROC・AUCについてはここを参照。

  • SVM、LR、DANNのクラス分類の精度はそれぞれ、58.2、59.8、66.1%となった。
  • 上記の結果、DNN では精度が高くなったが、精度としては十分ではなかった。以下の理由が考えられる。

    1. 教師データにミスラベルされたデータが多く含まれていた。
    2. 機能的な推定を行うには特徴量が少なすぎた。
    3. モデルのさらなる改善が必要。
  • DANNでは、area under the curve (AUC)において14%の相対的な上昇、及びエラー率において19%の減少を示した。

  • コーディング変異が85.6%を占めるESP (Fu et al., 2013) の変異中、コーディング変異が43.0%を占めるClinVar (Baker, 2012) にてpathogenic な変異をpathogenic としてクラス分類を行ったところ、LRとDANN において、SVMより優れた結果となった。

f:id:kimoppy126:20190507084539p:plain

Contribution

DNNs は、単純な線形アプローチであるロジスティック回帰やSVMs に比べ、クラス分類問題において優れていることをAUCを使用して示した。

Tools

deepnet

Compute Unified Device Architecture (CUDA)により 並列化されたGPUプログラミングをNVIDIA Tesla M2090 に適用するために、deepnetを使用した。
交差エントロピー誤差を小さくするため、内部的にdropout及びmomentumを利用した。

Discussion

  • DANNは、GWAS由来の変異など推定上の変異に対し有用だと記述されているが、他の線形アプローチと比較してやや性能が良い程度で実用には値しないと感じる。
  • 教師データには16,627,775の観測データと49,407,057のシミュレーションデータの中からランダムに抽出した16,627,775のデータを使用している。これらの正解ラベルの妥当性について検証はされているのだろうか。

Reference

特になし。

Memo

  • DANN は入力層、シグモイド関数の出力層、3つの1000ノードの隠れ層、及び活性化関数tanhから構成される。
  • コーディング領域の多いデータセットを使用した際は、3つのモデルの精度はいずれも大差なかった。
    ヒトのゲノム変異の多くはノンコーディング領域にて生じるため、DANNが最も有用であると判断することができる。

Links

www.ncbi.nlm.nih.gov

github.com