2020-01-01から1年間の記事一覧

Rosalindを解く - フィボナッチ数列

Rosalindの紹介はこちらから。 www.kimoton.com 本日は自然界でも見られる数列、フィボナッチ数列についての実装を見ていきます。 rosalind.info 生物学的知識のおさらい 参考:相補性 (分子生物学) - Wikipedia 中世で最も才能があったと評価されるイタリア…

生存時間データへのDeep Learningの適用 - DeepSurv

生存時間データの分析に関してちょこちょこ取り上げていますが、今回はそんな生存時間データにDeep Learningを適用してみた論文、DeepSurv論文を読んでまとめてみました。 bmcmedresmethodol.biomedcentral.com 1分で理解するDeepSurv Cox比例ハザードモデル…

Rosalindを解く - DNA逆相補鎖変換

Rosalindの紹介はこちらから。 www.kimoton.com 本日は基礎中の基礎第3弾、DNA配列を逆相補鎖に変換するコードを書いていきたいと思います。 rosalind.info 生物学的知識のおさらい 参考:相補性 (分子生物学) - Wikipedia 核酸の一次構造は、核酸ポリマーの…

Rosalindを解く - DNAからRNAへの転写

Rosalindの紹介はこちらから。 本日は基礎中の基礎第2弾、DNA配列をRNA配列に転写するコードを書いていきたいと思います。 生物学的知識のおさらい 参考:リボ核酸 - Wikipedia 前回のおさらいでは、DNAは、アデニン(A)、シトシン(C)、グアニン(G)、お…

Rosalindを解く - DNA塩基数のカウント

Rosalindの紹介はこちらから。 本日は基礎中の基礎、DNA塩基数を数えるコードを書いていきたいと思います。 rosalind.info 生物学的知識のおさらい 参考:クロマチン - Wikipedia すべての生物を構成する細胞は、生命の構成要素であると考えられています。 …

60以上の言語が使用可能なブラウザ実行型IDE - Repl.it

IDE

ブラウザ実行型の環境、便利ですよね。 フロントエンドに特化したものだとCodePenなんかが有名ですが、 その他の言語でも同様にブラウザ実行できる実行環境があると教育用や共有の際に便利かと思います。 今回紹介するRepl.itは、リアルタイム編集機能が付い…

Matplotlibで日本語を使用する方法

日本語表示できない問題 Matplotlibでは、日本語を扱えるフォントが指定されていない場合に日本語を含んだプロットを出力すると、文字化け(◻︎)が表示されてしまいます。 plt.figure() plt.title("てすと") 日本語フォントをダウンロード 日本語を表示する…

バイオインフォマティクスの競技プログラミング!? Rosalindの紹介

以前の記事ではざっくり無料で学べるバイオインフォマティクス関連コンテンツに関してご紹介しました。 www.kimoton.com その中でも特にオススメなのが今回紹介するRosalindです。 競技プログラミング!?と書きましたが、形式が競プロ(課題を解き答えをsub…

Galaxy - GUIベースのワークフローシステム

Galaxyとは Galaxyは、プログラミングに長けていないユーザーでもバイオインフォマティクス解析のパイプラインを構築できるように作られたOSS(Academic Free License)です。世界中のユーザーから構成されるコミュニティによって維持されており、ヘルプペー…

Courseraを無料で受ける手順を紹介(修了証なし)

先日Courseraを紹介しましたが、courseraのコースはフリーではないのでは?とコメントを頂きました。 修了証付きの専門講座に関してはご指摘の通り、有料となっています。一方で、単一のコースを閲覧する分には無料で受けることができるので、その手順をご紹…

フリーで学べる!バイオインフォマティクス系教材7選!

最近バイオインフォマティクスを学びたいという方によく巡り合う気がします。 私kimoton、バイオインフォマティクスと名の付く書籍は多数読み漁ってまいりました。そんな経験を活かし、今回は無料かつオンライン上で利用できるコンテンツに絞ってご紹介させ…

個人向けDNA検査サービス - 注意点と有用サイト

つい数年前までは、「DNA検査」と言うと父子鑑定を思い浮かべる方がほとんどでしたが、最近では日本でもDeNAのMyCodeやGenesis HealthcareのGeneLife、高橋祥子社長で有名なGene Questなど、様々な個人向け遺伝子検査サービスが出てきており、その認識が変わ…

生存時間解析 - Cox比例ハザードモデル

ここまでで紹介してきた生存関数の推定やハザード関数の推定、ログランク検定といったノンパラメトリックな手法は、一標本の生存時間データ解析、二群間の比較に有用な方法になります。 一方で、実際の医学研究では、個々の被験者について、生存・死亡といっ…

pythonでバイオインフォマティクス - VCFファイルを扱う

GATKやSAMtoolsなどの変異解析ツールを実行した際に、含まれていた一塩基変異(SNP)、挿入(Insert)、欠失(Deletion)等の情報はVCFファイルというフォーマットで出力されます。 VCFファイルのフォーマットに関しては、GATKの説明ページを参照してくださ…

Pythonでバイオインフォマティクス - BAM/SAMファイルを扱う

インストール手順は大抵conda かpipで可能なので、これらをいちいち紹介しても仕方ない気がしてきました。今回からインストール部分は省いてご紹介します。 前回の記事ではアライメント情報を格納するためのフォーマット、BAM/SAMファイルをご紹介しました。…

BAM/SAMファイル - アライメント情報を格納するためのフォーマット

通常シーケンサからの配列データ(FASTQファイルなど)を取得した後、アライメントツールを使用してリファレンスゲノムに対して各リード配列をマッピングすることになります。そんなアライメントしたリードの情報を格納するためのデータフォーマットが、本日…

Pythonでバイオインフォマティクス - FASTQファイルを扱う

生存時間分析シリーズが立て続いておりましたが、今回は久しぶりにバイオインフォマティクス関連の記事になります。 以前の記事でも紹介したBiopythonを用いて、簡単なデータの可視化を行ってみます。 www.kimoton.com Biopythonのインストール Biopythonの…

【第3回】ゼロから始めるゲノム解析 補足説明と次回予告

先日から隔週で勉強会を開催しています。 bioalgorithms.connpass.com 前回使用した資料は下記で公開しているので是非参考にしてみてください。 第二章のR基礎までは基礎的な内容がほとんどであったため、問題なく理解できた方が多いかと思いますが、 前回の…

生存時間分析 ハザード関数の推定

下記の定義で与えられるハザード関数(単にハザードともいう)は、各時点における瞬間的な死亡のリスクや危険度を表すために使われます。 $$ h(t)=\lim_{\delta t \to 0}\frac{P(t\leq T

Windows Terminalのすゝめ

かなり前の記事ですが、この記事で紹介したように、これまでターミナルにはHyper.jsを使っていました。 www.kimoton.com Hyper.jsは気に入っていたのですが、electron製なこともあってか若干動作が不安定なところが玉に瑕でした。 hyper.jsよく固まるんだけ…

生存時間分析 ログランク検定

2群以上のデータを比較する際に、最も簡単な方法として2つの生存関数を同じ軸の上にプロットすることが挙げられます。 from matplotlib import pyplot as plt from lifelines.datasets import load_dd from lifelines import KaplanMeierFitter data = load_…

生存時間分析 生存関数の標準誤差(Greenwoodの公式)

前回の記事では様々な定義による生存関数を見ていきました。 今回はそんな生存関数について、重要な統計量である標準偏差を算出する方法について学んでいきます。 標準誤差を推定することで信頼区間を形成したり、種々の仮説検定に用いることができます。 前…

生存時間分析 様々な生存関数とlifelinesを使った算出

前回は生存関数とハザード関数の関係性について紹介しました。 www.kimoton.com 生存関数の推定には、確率分布を仮定しない(ノンパラメトリックな)推定法を用います。 これらについて定義を見直し、lifelinesを使ってカプラン・マイヤー推定量を算出・プロ…

生存時間分析 生存関数とハザード関数の関係

生存時間解析とは 生存時間解析とは、明確な地点から特定のイベントもしくはエンドポイントまでの時系列データ(Time to event型のデータ)に対する解析を示す用語です。 応答変数に関しては文字通りの生存時間のみならず、心理学実験における課題完了までの…

ゲノム解析の勉強会を始めたよ

ご無沙汰しております。kimotonです。 最近、前の会社の先輩と「ゼロから始めるゲノム解析」という勉強会を始めました。 bioalgorithms.connpass.com なんとなくツイートしたこのツイートがプチバズったことがきっかけです。 Rでバイオインフォの勉強したい…

Entrez Direct(EDirect)を使った情報抽出

NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、情報抽出システムです。 このシステムは、国立バイオテクノロジー情報センター(NCBI)によって作成されています。 APIはE-utilitiesと呼ばれ、これ…

最適化手法について学ぶ - Nelder-Mead法

最近は専ら最尤推定と格闘しています。最尤推定において、必要なのが尤度関数の最大化。 なんとなく収束する手法を選択して目をを向けてきたものの、そろそろちゃんと理解する必要性を感じたため第一弾として、Nelder-Mead法を理解していこうと思います。 因…

VCF-Explorer: WGSのVCFファイルの変異をフィルタリング、分析するためのソフトウェア

最近はブロックチェーンと秘密計算技術が気になります。あれはゲノム医療の実現に向けてとても有用なのではないですか。まだ勉強途中なので何とも言えないですが、とても魅力的な技術であることは間違いなさそうです。 今回は来たるWGS時代に向けた変異解析…

Sparse Project VCF : 遺伝子型行列の効率的なエンコーディング

VCFという形式は色々と問題を抱えており、その代替案はこれまでも幾度となく考案されてきました。 その1つであり注目を浴びているspVCF(Sparse Project VCF)というフォーマットに関する論文に関しての論文を読んだ際のメモを投下します。 www.biorxiv.org …

SAM/BAMフォーマットは10年モノだっていう話

SAM/BAMといえばアライメントデータを格納するためのフォーマットとして一般的に使用されていますが、そもそもこのフォーマットはどういう経緯で生まれたのでしょう。 開発者であるHeng Li氏のブログにてその話があったため、読んでみました。サクッと読めま…