リファレンス配列のお話(GRCh38-hg38-b37-hg19)

今回はリファレンス配列についてご紹介。

リファレンス配列というのは、既知の配列のことを指します。
リシーケンシング解析では、このリファレンス配列と個々の生物のゲノム配列を比較することで、置換、逆位、欠失/挿入などのわずかな配列の違いを明らかにし、個体間の疾患感受性や代謝を司る遺伝的差異などを見出すことが可能になります。
また、RNA-seqでは、シーケンシングされたリード配列をリファレンス配列にマッピングすることで発現量を定量することが可能となります。

このようにリファレンス配列は様々な研究において多様に利用されてきました。

gatkのForumに詳しく書いてあったのでここをがっつり参考にしています。
gatkforums.broadinstitute.org

リファレンスゲノムの進化

Human Genome Project以降、歴史的に過小評価されてきた集団の再評価であったり、技術の進歩によるよりクオリティーの高い配列への置き換えにより、ビルドと呼ばれるゲノムのバージョンは継続的に公開されてきました。
中でも最も重要なアップデートとして、異なる集団間で配列が大きく異なるような領域を表現するためのALTハプロタイプの導入が挙げられます。

究極的にはリファレンスゲノムは全人類の全ゲノム配列を忠実に表現すべきですが、単に一意にリファレンス配列を決定するようなモデルでは、リファレンスを作成する際に使用した参加者のバイアスがどうしても生じてしまいます(欧州の人種と北米の人種ではゲノム配列が大きく異なる)。このことは過少評価されてきましたが、臨床的には非常に重要となってきます。

各ゲノムのいわゆる「バージョン」は、アセンブリやビルドと呼ばれており、 最新のアセンブリは公式にGRCh38 (for Genome Research Consortium human build 38) と名付けられていて、一般にはHg38 (for Human genome build 38)とも呼ばれています。

GRCh38は多様な種類のALT contigを含んでおり、このおかげで特定の集団に固有の変異を検出、解析する能力が高まっていたりします。

解析ツール × リファレンス配列

最新版のリファレンス配列が登場するまでには、含まれるcontigや染色体の命名法など統一がとれておらず、異なるグループが並列にバージョンアップを続けてきました。このため、特定のビルドにのみ対応している解析ツールに対して途中からリファレンスゲノムを切り替えるようなことは、基本的にNGです。

GATKやPicardといった解析ソフトウェアでは、リファレンスの検証をほぼ正確に行うため、
どのアセンブリで解析を行うか明示的に指定してあげれば問題なく解析が可能ですが、中にはhg19にしか対応していないようなソフトウェアも存在するので注意が必要です。

GRCh38/hg38の特徴

GRCh38/hg38は、2013年12月にリリースされたアセンブリです。 1000 Genomes Projectを含む多くのゲノムシーケンス、解析プロジェクトの結果を統合して作成されました。

上述した通り、GRCh38/hg38ではHLAを含む多くのALT contigを含んでおり、多様な変異の表現が可能です。 また、セントロメア配列及び核ゲノム以外のゲノム配列に関するアップデートも含んでいます。

f:id:kimoppy126:20190330124743p:plain

2019/3/30 現在の最新版はGRCh38.p1、GRCh38.p2、...GRCh38.p13とバージョンアップされてきたversion 13です。

GRCh38の最新版のデータはGenome Reference Consortiumにより公開されています。

アセンブリの構成

アセンブリの構成(GRCh38/hg38)としては、以下の3つに分かれています。

  • Assembled chromosomes
  • Unlocalized sequences
  • Unplaced sequences

それぞれ以下のような配列が格納されています。

Assembled chromosomes
アセンブリの結果を染色体ごとに分類した配列です(chr1-chr22chrXchrYchrM

Unlocalized sequences
特定の染色体に属することがわかっているが、そのポジション及び配向がわかっていない配列です。この配列には_random という接尾辞が付けられます。

Unplaced sequences
由来する染色体が未知の配列です。この配列にはchrU_ という接頭辞が付けられます。

ALT contig

この配列には_altという接尾辞が付けられます。GRCh38/hg38では、この領域が109Mb に及び、メインのassemblyの60Mbを跨ぐ領域に広がっています。
新規の配列となるALT contigは数Mbほどで、多くのALT contigsからなる配列はメインのassembly配列に非常に似ています。 これはつまり、GRCh38+ALTに対してアライメントを行うと、複数個所にマッピングされるマッピングクオリティー0のリードが沢山得られることを意味しています。

このリードに関してはソフトウェア側で対処する必要があり、GATKではZeroMappingQualityを使用してこの配列を除去しています。

Pseudo-Autosomal Regions (PAR) について

X染色体及びY染色体に存在するPARと呼ばれる領域では、2倍体となるため、ゲノムアセンブリにおいてはいずれかに統一してあげる必要があります。
この手法として、以下のように解析用のアセンブリではY染色体上のPARをNによりハードマスクします。これによりX染色体異常のPARにのみリードをマッピングさせることが可能になります。

GRCh38 におけるY染色体上のPAR1、PAR2 はそれぞれchrY:10,000-2,781,479 、chrY:56,887,902-57,217,415に該当するようです。

f:id:kimoppy126:20190330163110p:plain

Legacyなアセンブリについて

GRCh37/b37 (Hg19)

hg19ではchr1と表記されるが、b37では 1と表記されている。ミトコンドリア染色体に関しても、hg19ではchrM、b37ではMTとなっている。decoy配列も異なる。等など、build間で微妙な差があります。
これらは変換することが可能ですが、単純にリネームするだけでなく、適切なchain fileとPicard LiftoverVcfを使用することが推奨されています。

マッピング結果のリファレンスを変更したい場合は、リファレンス情報だけを変更するような手段はなく、再マッピングする必要があります。

GRCh36/b36 and Hg18

GATKでも対応していないため、このリファレンスに由来するデータを保持している場合、そのデータは捨てて解析をやり直すべきです。

Human Genome Overview - Genome Reference Consortium

ゲノムアセンブリの歴史

詳細は以下論文を参照。

genomebiology.biomedcentral.com

まとめると、

  • 最初のアセンブリはシンプルな線形のゲノム配列だった。
  • HGP (Human Genome Project) により、高いクオリティを持ったヒトゲノムリファレンス配列のアセンブリが完成した。このアセンブリと低コストハイスループットなシーケンシング技術の登場により、集団の多様性や遺伝子構造、遺伝子発現制御などに関する問題にアプローチできるようになった。ただこの時使用されていたアセンブリのモデルは、現在知られているゲノム構造を理解するには不十分なものであった。
  • Genome Reference Consortium (GRC) は、ゲノムアセンブリを管理する目的で2007年に設立された。複雑な構造変異が存在する箇所に「alternative sequence paths」の概念を導入したGRCh37 をリリースした。International Nucleotide Sequence Database Collaboration (INSDC) のデータベースに登録し、アセンブリを構成する全配列の関係性及び配列のIDを提供するようなモデルを構築した。このモデルはNational Centre for Biotechnology Information (NCBI) 及びEuropean Nucleotide Archive (ENA) にも組み込まれた。
  • 後続するマイナーリリースは新規の配列表現の追加を行う ‘novel patches’ や既存のミスの修正を行う'fix patches' という形で提供された。
  • alternative locus schemeを使用することで、すべての多様性を表現することは不可能だが、かなり高いレベルの多様性を表現できるようになった。 高クオリティなゲノムシーケンスが可能な箇所は限られているため、GRC はmajor histocompatibility complex (MHC)等の多様性に富んだ領域のみに焦点を当てている。
  • GRCh37 はalternative locus を9箇所を含む3領域しか組み込まれていないが、GRCh38では178箇所を含む261領域に増えている。
  • alternative lociに含まれる新規配列を考慮しないと、off-targetが生じる。このことからdecoy配列を使用することが考案され、現在ではGRCh38にその多くが組み込まれている。

おまけ

配列データのダウンロード

ヒトゲノムのみならず様々な生物のリファレンス配列はUCSCのSequence and Annotation Downloads上にて公開されています。
ヒトゲノムの場合、全ゲノムのfastaファイルでも3.1Gb程度なので解析を行いたいあなたはダウンロードしちゃってもよいでしょう。
UCSC Genome Browser Downloads]

GRCh39について

We will continue to make these updates publicly available at regular intervals in the form of patch releases, but have decided to indefinitely postpone our next coordinate-changing update (GRCh39) while we evaluate new models and sequence content for the human reference assembly currently in development.

patchレベルでのアップデートは今年の夏に再度ある様ですが、
座標レベルの変更、すなわちGRCh39へのアップデートはまだ未定のようです。

まぁ座標レベルでのアップデートが頻繁にありすぎても困りますしね。。

参考