scRNA-seqを用いたセルタイプの特定

Purpose

scRNA-seq解析について知見を深める

Title

Identifying cell populations with scRNASeq

Author

Tallulah S.Andrews, Martin Hemberg

Motivation

これまでは、分子特性ではなく形態学に基づいた200種類程度までのセルタイプの判定を行っていた。
前世紀半ば、免疫蛍光染色とフローサイトメトリーの登場により、表面タンパクの存在非存在に基づいたセルタイプの判定が可能となった。しかしながらこれらの手法は、容易に単離が可能な組織に限って可能であった。
また、このような判定が可能であったのは、比較的少数の表面タンパクに限った話であった。
scRNA-seqの発展により、数千の個々の細胞のトランスクリプトーム全体を使用してセルタイプを決定することが可能となった。
scRNA-seqによって得られるデータはノイズが多く、次元数が多い。
異なる実験プロトコルの概略と最もポピュラーな解析手法を示す。

Superiority

一連の解析手法について、scRNA-seq解析で実績のあるHemberg labが提供している。

Tools

SC3

scRNA-seqデータの教師なしクラスタリングに使用することのできるツール。
hemberg labから出ている。

Discussion

最適なプロトコルや最適な手法は存在しない。
プロトコルに関して、感度と細胞数はトレードオフの関係となっているため、唯一最適なプロトコルは存在しない。同様に、どんな状況においても最適な解析手法（次元削減、特徴量選択、教師なしクラスタリング）は存在しない。

Reference

正規分布の代わりに負の二項分布を仮定したPCAベースの手法を使用している
D. Risso, F. Perraudeau, S. Gribkova, S. Dudoit, J.-P. Vert
BioRxiv (2017), 10.1101/125112

Diffusion Map (DM) に関して
X. Qiu, Q. Mao, Y. Tang, L. Wang, R. Chawla, H. Pliner, C. Trapnell
BioRxiv (2017), 10.1101/110668

Memo

実験プロトコル

droplet-based

InDrop (Klein et al., 2015)
Drop-seq (Macosko et al., 2015)
10X Chromium (Zheng et al., 2017)

数千~数万細胞の解析において細胞のキャプチャとライブラリ生成のコスト効率が高いが、それだけの細胞数をシーケンスする際に大変なコストがかかる。
また他のプロトコルと比較すると、比較的低い検出感度とキャプチャ効率となっている。

plate-based

Smartseq2 (Picelli et al., 2013)
SCRB-seq (Soumillon et al., 2014)
CEL-seq (Hashimshony et al.,2012)
MARS-seq (Jaitin et al., 2014)

細胞のキャプチャとライブラリ生成にセルソーター若しくはマイクロ流体チップを使用する。
コスト効率は低いが検出感度が高い。
完全長トランスクリプトームのシーケンスに対応している。
細胞当たり1億リードのデプスを達成することで遺伝子検出感度を最大化することが示された。

次元削減手法

f:id:kimoppy126:20190507235945p:plain:w400

Principal component analysis (PCA)

利点
距離の違いによらず、データ点の関係性を保って次元圧縮を行うことが可能。

欠点
データの次元が線形であること、及び正規分布に近似できることを仮定している。
これら2つの仮定はscRNA-seqのデータには当てはまらない。

T-distributed stochastic neighbor embedding (tSNE)

利点
確率論的な手法であり、高次元かつ巨大なデータを要約して可視化することが可能。
データ点のまとまりを推定するために確率分布が使用されるので、独立したクラスタとしてデータを射影し単離することができる。scRNA-seqデータ解析において最もポピュラーな手法となっている。

欠点
距離の近いデータ点に関しては関係性を保持する一方で、距離の遠いデータ点に関する情報は保たれない。
確率論的な性質ゆえに、複数回実行すると異なる結果が得られる。
また、perplexityと呼ばれるパラメータに強く依存する。そのため、適切なパラメータを選択するために複数回実行する必要がある。

tSNEの著者らはtSNEを可視化にのみ使用し、次元圧縮手法としては使用しないことを推奨している。

Diffusion maps (DM)

利点
距離の近い遠いによらず、データ点の関係性を保って次元圧縮を行うことが可能なため、細胞の連続性を観測する際に使用される。
比較的平坦な細胞群を仮定しているため、巨大なRT-qPCRデータや1000細胞を超えるscRNASeqデータに良く働く。

欠点
細胞間の距離が遠い場合にはパフォーマンスが落ちる。

教師なしクラスタリング

K-means

特徴量抽出の後に主に実行されるクラスタリング手法。
クラスタの中心から近傍のデータ点をアサインし、再度中心を再計算する処理を繰り返すだけのため実行が早いが、
事前にクラスタ数を指定する必要があること、及び各クラスターの中心点として確率的な開始点を取るため、結果を複数回確認する必要がある。SC3ではこれが内部的に可能。

Hierarchical clustering

Ward's (Ward, 1963) の手法では、円形のサイズが均一なクラスターが存在することを仮定している。
k-meansより低速。異なる粒度間の関係性を決定することができる。そのため結果はデンドログラムとして出力される。
異なるクラスタ数のクラスタリング結果を知りたい場合、デンドログラムを切る高さを変えるだけで良い。
階層クラスタリングを行えるツール↓

pcaReduce (Zurauskien_e and Yau, 2016)
SINCERA (Guoet al., 2015)
CIDR (Lin et al., 2017)

同様のセルタイプを持った多くのクラスタを同定してしまう傾向がある。

Density-based clustering

高密度の細胞集団に対し、連続した領域としてクラスタを同定する。hierarchical clustering や k-means と異なり、クラスタの形やサイズを仮定しない。
代わりに、全てのクラスタが均一に密であることを仮定している。また、この密度は１つ若しくは複数のパラメータとして実行時に渡す必要がある。

適切な密度を正確に選択するために、大量のサンプル数が必要となる。droplet-basedや巨大なRT-qPCRのデータにおいてよく働く。
BSCAN (Ester et al., 1996) が主な手法として知られているが、これはSeuratの次元圧縮等に使用されている。