bioinformatics

ANNOVARとMyVariant.infoを用いた変異マイニング - VAPr

MongoDBを使って変異情報の管理がしたいという一心で仕事に手がつかないkimotonですこんにちは。 コロナもいいけどそんなことより花粉がヤバいですね。皆さんお気をつけて。 変異マイニング系の論文を読み漁っておりますので1つ投下します。 Purpose MongoDB…

gVCFとはなんなのか

2020/02/14 一部修正 変異情報を格納するフォーマットといえばVCFファイルが一般的なわけですが、 似たようなフォーマットにgVCFというものがあります。 VCF自体自由度の高いフォーマットなこともあり、gVCFも使用するツールによって色々なフォーマットがあ…

RDBとNoSQLのアノテーションDBとしての評価

かの有名なDB、gnomADでは、MongoDBが使われているそうです。 UIのレスポンスも早く、かっちょいいですね。 変異アノテーションデータを格納するDBとしてRDBとNoSQLを比較検討してみた論文があったので要約してみました。 Purpose 変異アノテーション情報を…

Snakemakeを試す - ④ まとめ

はじめに ※本記事はバイオインフォマティクス Advent Calendar 2019の20日目の記事です。 Snakemakeのインストールと概要 → Snakemakeを使って再現性のある!スケーラブルな!可搬性のある解析! - ① - ばいばいバイオ チュートリアルの実行 → Snakemakeを使…

Snakemakeを試す - ③ 並列化

前回の続き! 今回は並列化について見ていきます。 前回の例を使って、並列化した場合としてない場合とでどの程度変わるのか実験してみましょう。 ※コマンド実行ログが少々長めです。すっ飛ばしてサクッと読んでください。 Snakemakeにおけるthreadsの意味 …

Snakemakeを試す - ② チュートリアルを実行

明日やろうは馬鹿野郎。 前回の続き。 では準備もできたということで、やっていきしょうshort tutrial このチュートリアルは、ざっくりと決められたワークフローを組んでいくことでSnakemakeと仲良くなろうという趣旨のものです。 内容はバイオインフォマテ…

Snakemakeを試す - ① インストールと概要

お疲れ様です。 ここのところバイオインフォに触れられず何か物足りないkimotonです。 最近はMLOps周りの基盤作りに関わっています。 ナンデダロ。 Snakemakeってなにー?? githubリポジトリは下記。 The Snakemake workflow management system is a tool t…

SRA-toolkitを使ってサンプルデータをダウンロード

次世代シーケンサー(NGS)データを学術論文で公表する場合、シーケンサーから出力された配列データやアノテーションに関するデータを公共データベースに登録することが必要です。 このデータ群が登録される先が、International Nucleotide Sequence Database …

深層学習を用いた遺伝子変異の病原性に関するアノテーション - DANN

www.ncbi.nlm.nih.gov Purpose 個別化医療に向け、変異のpathogenicity (悪性) に関する関心は高まっている。 Deep Learningを使用したアプローチにより変異のpathogenicityをどこまで判断することができるのか把握する。 Title DANN: a deep learning appro…

深層学習を用いた汎用的なVariant Caller - DeepVariant

今回読むのはGoogleのDeepVariantに関する論文。 Googleのhealthcareに対する取り組みとして、Google AI Blogでも紹介されており、Verily Life Sciencesと共同でのGoogle Brainチームによる2年以上の研究の成果となる。 Purpose 配列データにDeep learningを…

リファレンス配列をリフトオーバー

以前の記事でリファレンス配列についてだらだらと書かせて頂きました。 www.kimoton.com 手持ちのデータは最新のhg19でマッピングされているけれど論文の情報はhg38でのマッピングが行われている場合など、異なるアセンブリのデータを取得したい場合、本来は…

リファレンス配列のお話(GRCh38-hg38-b37-hg19)

今回はリファレンス配列についてご紹介。 リファレンス配列というのは、既知の配列のことを指します。 リシーケンシング解析では、このリファレンス配列と個々の生物のゲノム配列を比較することで、置換、逆位、欠失/挿入などのわずかな配列の違いを明らか…

Juliaでpermutation

本日のお題。 与えられた配列の全permutationを取得する方法について、pythonとjuliaで書いてみる。 1から書いてもいいのですが、実用性を考えてパッケージを使用した方法をご紹介。 Python編 itertoolsパッケージのproduct関数を使用します。 引数にはitera…

Single-cell RNA sequencing 技術に関するreview

論文要約シリーズ第1弾! 論文じゃなかったレビューだった。 Single-cell RNA sequencing technologies and bioinformatics pipelines Experimental & Molecular Medicinevolume 50, Article number: 96 概要 Single-cell RNA sequencing (scRNA-seq) は、が…

バイオインフォマティクスのコンペ - Bioinformatics Contest 2019

今日はとあるコンペのご紹介を使用と思う。 その名も、Bioinformatics Contest 2019! Online programming competition among individuals organized annually by Bioinformatics Institute in cooperation with ITMO University 毎年、Bioinformatics Insti…

Seurat を駆使する会②

SeuratはシングルセルRNA解析で頻繁に使用されるRのパッケージです。 Seuratを用いたscRNA解析について、CCAによるbatch effect除去などを含めた手法を丁寧に解説します。

fastqファイルのクオリティをチェック - FastQC

QCとは バイオインフォマティクスの解析では、通常シーケンサから出力されたリードの配列データを入力データとします。 このデータから、様々な解析を行い、生物学的な意味合いを見出すのですが、 その前に、そのデータが本当に解析する価値のあるものなのか…

配列のクオリティーコントロール - FASTX-toolkit

はじめに FASTX toolkitは、ショートリードのfastqファイルの前処理に使用されるコマンドラインツールの集合です。 低クオリティーのリードを除去したい場合や、クオリティーを基準に塩基をトリミングしたい際等に使用されます。 似たようなツールとしては、…

scRNA解析に有用 - SingleCellExperiment クラス

SingleCellExperimentクラス single cell RNA (scRNA-seq) 解析のためのS4 Classesです。 様々なscRNA-seq解析のパッケージで採用されており、scRNA-seq解析に有用なデータを保持しながら解析を進めることができます。 Bioconductor Bioconductor - SingleCe…

FASTQファイル - 塩基配列を格納するためのフォーマット

お疲れ様です。9月です。寒いです。 本日はバイオインフォマティクスの基礎の基礎。 FASTQファイルについて見ていきましょう。 ショートリードを生成するシーケンサーだと、だいだい <~200 bpの塩基配列を取得できます。 大抵の場合、シーケンサから出力され…

EMBOSSでアライメント

アライメント。 要するに配列を比較し、並べる操作を指します。 遺伝子の発現量を測定したいときなど、遺伝子解析においてはアライメントを必要とする場面が多々登場します。 配列の類似度を表す基準は複数あり、その計算方法も複数あるため、いろんなアライ…

NCBI EntrezからFastaファイルをダウンロード

NCBI Entrez は、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、情報抽出システムです。 BiopythonパッケージのBio.Entrezモジュールを使えば、このシステムをpythonから手軽に使えちゃいます。 ちなみに、Bio.En…

chip-seqを理解する

ChIP-seqとは Chromatin Immuno Precipitaton の略。 抗原抗体反応を利用して、抗原タンパク質が結合しているクロマチン構造を免疫沈降させ、クロマチン内に含まれるDNAを濃縮する手法。 ヒストンや転写因子に対して、それらを認識する抗体を取ってくる。 ゲ…

Seuratを駆使する会 ①

SeuratはシングルセルRNA解析で頻繁に使用されるRのパッケージです。 Seuratを用いたscRNA解析について、CCAによるbatch effect除去などを含めた手法を丁寧に解説します。

SeqPrep - overlap除去、アダプター配列の除去

SeqPrep github.com SeqPrepはPandaSeqとは違うアルゴリズムのoverlapをマージするツール。 https://github.com/jstjohn/SeqPrep TechSupport@illumina.comからイルミナにアダプター配列のリストをもらえたりするらしい。 アダプター配列は自分でリード見て…

fastp - fastqファイルの操作

https://github.com/OpenGene/fastp fastp A tool designed to provide fast all-in-one preprocessing for FastQ files. This tool is developed in C++ with multithreading supported to afford high performance. Fastqファイルの前処理全てが素早く実行…

single-end read, paired-end readsのおはなし

きっかけ paired-endのサンプルのoverlapを取り除く方法を検討してたらいろいろ整理されてる記事に巡り合えたので和訳しつつ理解を深める single-end, paired-end fastqファイルには、シーケンシングのされ方で2種類ある。UCSCなんかからfastqをダウンロード…