2020-10-01から1ヶ月間の記事一覧

pythonでバイオインフォマティクス - VCFファイルを扱う

GATKやSAMtoolsなどの変異解析ツールを実行した際に、含まれていた一塩基変異(SNP)、挿入(Insert)、欠失(Deletion)等の情報はVCFファイルというフォーマットで出力されます。 VCFファイルのフォーマットに関しては、GATKの説明ページを参照してくださ…

Pythonでバイオインフォマティクス - BAM/SAMファイルを扱う

インストール手順は大抵conda かpipで可能なので、これらをいちいち紹介しても仕方ない気がしてきました。今回からインストール部分は省いてご紹介します。 前回の記事ではアライメント情報を格納するためのフォーマット、BAM/SAMファイルをご紹介しました。…

BAM/SAMファイル - アライメント情報を格納するためのフォーマット

通常シーケンサからの配列データ(FASTQファイルなど)を取得した後、アライメントツールを使用してリファレンスゲノムに対して各リード配列をマッピングすることになります。そんなアライメントしたリードの情報を格納するためのデータフォーマットが、本日…

Pythonでバイオインフォマティクス - FASTQファイルを扱う

生存時間分析シリーズが立て続いておりましたが、今回は久しぶりにバイオインフォマティクス関連の記事になります。 以前の記事でも紹介したBiopythonを用いて、簡単なデータの可視化を行ってみます。 www.kimoton.com Biopythonのインストール Biopythonの…

【第3回】ゼロから始めるゲノム解析 補足説明と次回予告

先日から隔週で勉強会を開催しています。 bioalgorithms.connpass.com 前回使用した資料は下記で公開しているので是非参考にしてみてください。 第二章のR基礎までは基礎的な内容がほとんどであったため、問題なく理解できた方が多いかと思いますが、 前回の…

生存時間分析 ハザード関数の推定

下記の定義で与えられるハザード関数(単にハザードともいう)は、各時点における瞬間的な死亡のリスクや危険度を表すために使われます。 $$ h(t)=\lim_{\delta t \to 0}\frac{P(t\leq T

Windows Terminalのすゝめ

かなり前の記事ですが、この記事で紹介したように、これまでターミナルにはHyper.jsを使っていました。 www.kimoton.com Hyper.jsは気に入っていたのですが、electron製なこともあってか若干動作が不安定なところが玉に瑕でした。 hyper.jsよく固まるんだけ…

生存時間分析 ログランク検定

2群以上のデータを比較する際に、最も簡単な方法として2つの生存関数を同じ軸の上にプロットすることが挙げられます。 from matplotlib import pyplot as plt from lifelines.datasets import load_dd from lifelines import KaplanMeierFitter data = load_…

生存時間分析 生存関数の標準誤差(Greenwoodの公式)

前回の記事では様々な定義による生存関数を見ていきました。 今回はそんな生存関数について、重要な統計量である標準偏差を算出する方法について学んでいきます。 標準誤差を推定することで信頼区間を形成したり、種々の仮説検定に用いることができます。 前…

生存時間分析 様々な生存関数とlifelinesを使った算出

前回は生存関数とハザード関数の関係性について紹介しました。 www.kimoton.com 生存関数の推定には、確率分布を仮定しない(ノンパラメトリックな)推定法を用います。 これらについて定義を見直し、lifelinesを使ってカプラン・マイヤー推定量を算出・プロ…

生存時間分析 生存関数とハザード関数の関係

生存時間解析とは 生存時間解析とは、明確な地点から特定のイベントもしくはエンドポイントまでの時系列データ(Time to event型のデータ)に対する解析を示す用語です。 応答変数に関しては文字通りの生存時間のみならず、心理学実験における課題完了までの…