bioinformatics

Rosalindを解く - フィボナッチ数列

Rosalindの紹介はこちらから。 www.kimoton.com 本日は自然界でも見られる数列、フィボナッチ数列についての実装を見ていきます。 rosalind.info 生物学的知識のおさらい 参考:相補性 (分子生物学) - Wikipedia 中世で最も才能があったと評価されるイタリア…

Rosalindを解く - DNA逆相補鎖変換

Rosalindの紹介はこちらから。 www.kimoton.com 本日は基礎中の基礎第3弾、DNA配列を逆相補鎖に変換するコードを書いていきたいと思います。 rosalind.info 生物学的知識のおさらい 参考:相補性 (分子生物学) - Wikipedia 核酸の一次構造は、核酸ポリマーの…

Rosalindを解く - DNAからRNAへの転写

Rosalindの紹介はこちらから。 本日は基礎中の基礎第2弾、DNA配列をRNA配列に転写するコードを書いていきたいと思います。 生物学的知識のおさらい 参考:リボ核酸 - Wikipedia 前回のおさらいでは、DNAは、アデニン(A)、シトシン(C)、グアニン(G)、お…

Rosalindを解く - DNA塩基数のカウント

Rosalindの紹介はこちらから。 本日は基礎中の基礎、DNA塩基数を数えるコードを書いていきたいと思います。 rosalind.info 生物学的知識のおさらい 参考:クロマチン - Wikipedia すべての生物を構成する細胞は、生命の構成要素であると考えられています。 …

バイオインフォマティクスの競技プログラミング!? Rosalindの紹介

以前の記事ではざっくり無料で学べるバイオインフォマティクス関連コンテンツに関してご紹介しました。 www.kimoton.com その中でも特にオススメなのが今回紹介するRosalindです。 競技プログラミング!?と書きましたが、形式が競プロ(課題を解き答えをsub…

Galaxy - GUIベースのワークフローシステム

Galaxyとは Galaxyは、プログラミングに長けていないユーザーでもバイオインフォマティクス解析のパイプラインを構築できるように作られたOSS(Academic Free License)です。世界中のユーザーから構成されるコミュニティによって維持されており、ヘルプペー…

pythonでバイオインフォマティクス - VCFファイルを扱う

GATKやSAMtoolsなどの変異解析ツールを実行した際に、含まれていた一塩基変異(SNP)、挿入(Insert)、欠失(Deletion)等の情報はVCFファイルというフォーマットで出力されます。 VCFファイルのフォーマットに関しては、GATKの説明ページを参照してくださ…

Pythonでバイオインフォマティクス - BAM/SAMファイルを扱う

インストール手順は大抵conda かpipで可能なので、これらをいちいち紹介しても仕方ない気がしてきました。今回からインストール部分は省いてご紹介します。 前回の記事ではアライメント情報を格納するためのフォーマット、BAM/SAMファイルをご紹介しました。…

BAM/SAMファイル - アライメント情報を格納するためのフォーマット

通常シーケンサからの配列データ(FASTQファイルなど)を取得した後、アライメントツールを使用してリファレンスゲノムに対して各リード配列をマッピングすることになります。そんなアライメントしたリードの情報を格納するためのデータフォーマットが、本日…

Pythonでバイオインフォマティクス - FASTQファイルを扱う

生存時間分析シリーズが立て続いておりましたが、今回は久しぶりにバイオインフォマティクス関連の記事になります。 以前の記事でも紹介したBiopythonを用いて、簡単なデータの可視化を行ってみます。 www.kimoton.com Biopythonのインストール Biopythonの…

【第3回】ゼロから始めるゲノム解析 補足説明と次回予告

先日から隔週で勉強会を開催しています。 bioalgorithms.connpass.com 前回使用した資料は下記で公開しているので是非参考にしてみてください。 第二章のR基礎までは基礎的な内容がほとんどであったため、問題なく理解できた方が多いかと思いますが、 前回の…

Entrez Direct(EDirect)を使った情報抽出

NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、情報抽出システムです。 このシステムは、国立バイオテクノロジー情報センター(NCBI)によって作成されています。 APIはE-utilitiesと呼ばれ、これ…

VCF-Explorer: WGSのVCFファイルの変異をフィルタリング、分析するためのソフトウェア

最近はブロックチェーンと秘密計算技術が気になります。あれはゲノム医療の実現に向けてとても有用なのではないですか。まだ勉強途中なので何とも言えないですが、とても魅力的な技術であることは間違いなさそうです。 今回は来たるWGS時代に向けた変異解析…

Sparse Project VCF : 遺伝子型行列の効率的なエンコーディング

VCFという形式は色々と問題を抱えており、その代替案はこれまでも幾度となく考案されてきました。 その1つであり注目を浴びているspVCF(Sparse Project VCF)というフォーマットに関する論文に関しての論文を読んだ際のメモを投下します。 www.biorxiv.org …

SAM/BAMフォーマットは10年モノだっていう話

SAM/BAMといえばアライメントデータを格納するためのフォーマットとして一般的に使用されていますが、そもそもこのフォーマットはどういう経緯で生まれたのでしょう。 開発者であるHeng Li氏のブログにてその話があったため、読んでみました。サクッと読めま…

VCFファイルの表記揺れについて

VCF(Variant Caller Format)は、一塩基変異(SNP)、挿入・欠損(INDEL)、および構造変異(SV)を表すために使用される標準化されたテキストファイルフォーマットです。詳細に知りたい方はGATKの説明ページを参照してください。 このフォーマットを用いる…

ANNOVARとMyVariant.infoを用いた変異マイニング - VAPr

MongoDBを使って変異情報の管理がしたいという一心で仕事に手がつかないkimotonですこんにちは。 コロナもいいけどそんなことより花粉がヤバいですね。皆さんお気をつけて。 変異マイニング系の論文を読み漁っておりますので1つ投下します。 Purpose MongoDB…

gVCFとはなんなのか

2020/02/14 一部修正 2020/04/27 NON_REFについて加筆 変異情報を格納するフォーマットといえばVCFファイルが一般的なわけですが、 似たようなフォーマットにgVCFというものがあります。 VCF自体自由度の高いフォーマットなこともあり、gVCFも使用するツール…

RDBとNoSQLのアノテーションDBとしての評価

かの有名なDB、gnomADでは、MongoDBが使われているそうです。 UIのレスポンスも早く、かっちょいいですね。 変異アノテーションデータを格納するDBとしてRDBとNoSQLを比較検討してみた論文があったので要約してみました。 Purpose 変異アノテーション情報を…

Snakemakeを試す - ④ まとめ

はじめに ※本記事はバイオインフォマティクス Advent Calendar 2019の20日目の記事です。 Snakemakeのインストールと概要 → Snakemakeを試す - ① インストールと概要 - ばいばいバイオ チュートリアルの実行 → Snakemakeを試す - ② チュートリアルを実行 - …

Snakemakeを試す - ③ 並列化

前回の続き! 今回は並列化について見ていきます。 前回の例を使って、並列化した場合としてない場合とでどの程度変わるのか実験してみましょう。 ※コマンド実行ログが少々長めです。すっ飛ばしてサクッと読んでください。 Snakemakeにおけるthreadsの意味 …

Snakemakeを試す - ② チュートリアルを実行

明日やろうは馬鹿野郎。 前回の続き。 では準備もできたということで、やっていきしょうshort tutrial このチュートリアルは、ざっくりと決められたワークフローを組んでいくことでSnakemakeと仲良くなろうという趣旨のものです。 内容はバイオインフォマテ…

Snakemakeを試す - ① インストールと概要

2020/6/6 Syntax highlightを追記 お疲れ様です。 ここのところバイオインフォに触れられず何か物足りないkimotonです。 最近はMLOps周りの基盤作りに関わっています。 ナンデダロ。 Snakemakeってなにー?? githubリポジトリは下記。 The Snakemake workfl…

SRA-toolkitを使ってサンプルデータをダウンロード

次世代シーケンサー(NGS)データを学術論文で公表する場合、シーケンサーから出力された配列データやアノテーションに関するデータを公共データベースに登録することが必要です。 このデータ群が登録される先が、International Nucleotide Sequence Database …

深層学習を用いた遺伝子変異の病原性に関するアノテーション - DANN

www.ncbi.nlm.nih.gov Purpose 個別化医療に向け、変異のpathogenicity (悪性) に関する関心は高まっている。 Deep Learningを使用したアプローチにより変異のpathogenicityをどこまで判断することができるのか把握する。 Title DANN: a deep learning appro…

深層学習を用いた汎用的なVariant Caller - DeepVariant

今回読むのはGoogleのDeepVariantに関する論文。 Googleのhealthcareに対する取り組みとして、Google AI Blogでも紹介されており、Verily Life Sciencesと共同でのGoogle Brainチームによる2年以上の研究の成果となる。 Purpose 配列データにDeep learningを…

リファレンス配列をリフトオーバー

以前の記事でリファレンス配列についてだらだらと書かせて頂きました。 www.kimoton.com 手持ちのデータは最新のhg19でマッピングされているけれど論文の情報はhg38でのマッピングが行われている場合など、異なるアセンブリのデータを取得したい場合、本来は…

リファレンス配列のお話(GRCh38-hg38-b37-hg19)

今回はリファレンス配列についてご紹介。 リファレンス配列というのは、既知の配列のことを指します。 リシーケンシング解析では、このリファレンス配列と個々の生物のゲノム配列を比較することで、置換、逆位、欠失/挿入などのわずかな配列の違いを明らか…

Juliaでpermutation

本日のお題。 与えられた配列の全permutationを取得する方法について、pythonとjuliaで書いてみる。 1から書いてもいいのですが、実用性を考えてパッケージを使用した方法をご紹介。 Python編 itertoolsパッケージのproduct関数を使用します。 引数にはitera…

Single-cell RNA sequencing 技術に関するreview

論文要約シリーズ第1弾! 論文じゃなかったレビューだった。 Single-cell RNA sequencing technologies and bioinformatics pipelines Experimental & Molecular Medicinevolume 50, Article number: 96 概要 Single-cell RNA sequencing (scRNA-seq) は、が…