VCF-Explorer: WGSのVCFファイルの変異をフィルタリング、分析するためのソフトウェア

最近はブロックチェーンと秘密計算技術が気になります。あれはゲノム医療の実現に向けてとても有用なのではないですか。まだ勉強途中なので何とも言えないですが、とても魅力的な技術であることは間違いなさそうです。

今回は来たるWGS時代に向けた変異解析ソフトウェアに関する論文。2017年publishなので最近のツールに比べたら見劣りする印象。。

doi.org

Purpose

VCFファイルを読み込み変異を解析する系ソフトウェアの網羅的に調査し、この類のソフトウェアに必要な機能を検討する

Author

トルコ科学技術研究評議会の人達

Motivation

  • エクソームから全ゲノムへのパラダイムシフトにより、出力ファイルのサイズが大幅に増加した。exomeファイルを分析するために開発された既存のツールのほとんどは、大規模なファイルには適切ではない。
  • Genomics England100,000ゲノムプロジェクトなど、大規模なゲノムプロジェクトは増えている。

Superiority

  • サイズの大きいファイルを処理できる変異分析ソフトウェアであるVCF-Explorerを開発した
  • ユーザーがバリアントおよびサンプルの遺伝子型レベルの注釈に基づいてさまざまなタイプのクエリを定義できる
  • ラップトップから高性能サーバーまで、さまざまな環境や計算プラットフォームで実行可能
  • 巨大なファイルを処理するための前処理ステップ(インデックス作成等)が不要
  • GT(genotype)の他にGQ(Quality of the assigned genotype)やDP(depth)を用いたフィルタリングが可能
  • アノテーションフィールド内の部分的なキーワード検索が可能

Discussion

  • GUIだがWebベースでないため、あくまでInternal なユースケースにしか当てはまらない。
  • gVCFが扱えない。コホート研究では変異のない箇所のQC指標も使った分析を行うべき。他の多くのツールでもgVCF使えるようにしてるケースは少なかったりする。
  • VCF-Explorerは各クエリを秒単位ではなくても分単位はかかるとのこと。単純なロジックの改良ではGoogleのBigQuery使ったクエリ処理なんかには勝てなそう。分散処理は必須ぽい。

Memo

同じ名前のソフトウェアがUMCUGeneticsから出ていた。似ているけど違う。。 github.com

参考

Mete Akgün, Hüseyin Demirci, VCF-Explorer: filtering and analysing whole genome VCF files, Bioinformatics, Volume 33, Issue 21, 01 November 2017, Pages 3468–3470, https://doi.org/10.1093/bioinformatics/btx422