Entrez Direct(EDirect)を使った情報抽出

NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、情報抽出システムです。 このシステムは、国立バイオテクノロジー情報センター(NCBI)によって作成されています。 APIはE-utilitiesと呼ばれ、これ…

最適化手法について学ぶ - Nelder-Mead法

最近は専ら最尤推定と格闘しています。最尤推定において、必要なのが尤度関数の最大化。 なんとなく収束する手法を選択して目をを向けてきたものの、そろそろちゃんと理解する必要性を感じたため第一弾として、Nelder-Mead法を理解していこうと思います。 因…

VCF-Explorer: WGSのVCFファイルの変異をフィルタリング、分析するためのソフトウェア

最近はブロックチェーンと秘密計算技術が気になります。あれはゲノム医療の実現に向けてとても有用なのではないですか。まだ勉強途中なので何とも言えないですが、とても魅力的な技術であることは間違いなさそうです。 今回は来たるWGS時代に向けた変異解析…

Sparse Project VCF : 遺伝子型行列の効率的なエンコーディング

VCFという形式は色々と問題を抱えており、その代替案はこれまでも幾度となく考案されてきました。 その1つであり注目を浴びているspVCF(Sparse Project VCF)というフォーマットに関する論文に関しての論文を読んだ際のメモを投下します。 www.biorxiv.org …

SAM/BAMフォーマットは10年モノだっていう話

SAM/BAMといえばアライメントデータを格納するためのフォーマットとして一般的に使用されていますが、そもそもこのフォーマットはどういう経緯で生まれたのでしょう。 開発者であるHeng Li氏のブログにてその話があったため、読んでみました。サクッと読めま…

楽天・ジェネシスヘルスケアが出した新型コロナPCR検査キットに関する問題点まとめ

珍しくタイムリーな記事を書きます。 シーケンスコストが低下したことにより、DeNAやYahoo!、DHC、そのほか多数の企業が消費者直販型遺伝子検査ビジネス、DTCGT(Direct-to-Consumer Genetic Testing)分野に参画しています。 これらは現在、病院など医療機…

VCFファイルの表記揺れについて

VCF(Variant Caller Format)は、一塩基変異(SNP)、挿入・欠損(INDEL)、および構造変異(SV)を表すために使用される標準化されたテキストファイルフォーマットです。詳細に知りたい方はGATKの説明ページを参照してください。 このフォーマットを用いる…

ANNOVARとMyVariant.infoを用いた変異マイニング - VAPr

MongoDBを使って変異情報の管理がしたいという一心で仕事に手がつかないkimotonですこんにちは。 コロナもいいけどそんなことより花粉がヤバいですね。皆さんお気をつけて。 変異マイニング系の論文を読み漁っておりますので1つ投下します。 Purpose MongoDB…

gVCFとはなんなのか

2020/02/14 一部修正 2020/04/27 NON_REFについて加筆 変異情報を格納するフォーマットといえばVCFファイルが一般的なわけですが、 似たようなフォーマットにgVCFというものがあります。 VCF自体自由度の高いフォーマットなこともあり、gVCFも使用するツール…

RDBとNoSQLのアノテーションDBとしての評価

かの有名なDB、gnomADでは、MongoDBが使われているそうです。 UIのレスポンスも早く、かっちょいいですね。 変異アノテーションデータを格納するDBとしてRDBとNoSQLを比較検討してみた論文があったので要約してみました。 Purpose 変異アノテーション情報を…

Snakemakeを試す - ④ まとめ

はじめに ※本記事はバイオインフォマティクス Advent Calendar 2019の20日目の記事です。 Snakemakeのインストールと概要 → Snakemakeを試す - ① インストールと概要 - ばいばいバイオ チュートリアルの実行 → Snakemakeを試す - ② チュートリアルを実行 - …

Snakemakeを試す - ③ 並列化

前回の続き! 今回は並列化について見ていきます。 前回の例を使って、並列化した場合としてない場合とでどの程度変わるのか実験してみましょう。 ※コマンド実行ログが少々長めです。すっ飛ばしてサクッと読んでください。 Snakemakeにおけるthreadsの意味 …

Snakemakeを試す - ② チュートリアルを実行

明日やろうは馬鹿野郎。 前回の続き。 では準備もできたということで、やっていきしょうshort tutrial このチュートリアルは、ざっくりと決められたワークフローを組んでいくことでSnakemakeと仲良くなろうという趣旨のものです。 内容はバイオインフォマテ…

Snakemakeを試す - ① インストールと概要

2020/6/6 Syntax highlightを追記 お疲れ様です。 ここのところバイオインフォに触れられず何か物足りないkimotonです。 最近はMLOps周りの基盤作りに関わっています。 ナンデダロ。 Snakemakeってなにー?? githubリポジトリは下記。 The Snakemake workfl…

23万のPCを購入しましたよ

お久しぶりです。 なんとこの度転職しました。 つきましては今まで使ってたPC(名前はHPちゃん)が没収されました。 さらばHPちゃんいままでありがとう。 つきましては新たなPCを購入しようと思います。 じゃん!こちらです。 www.lenovo.com ThinkPad X1 Ca…

交差テーブルの命名法

きっかけ RDBにおいて、変異と患者、変異とメタデータ等、多対多の関係で複数のテーブルを紐づける際に必要なのが(厳密に言うと定義すべきなのが)、交差テーブルです。 (参照:SQLアンチパターン - ジェイウォーク) この命名法として、variants_patients…

【Python】 tqdmでプログレスバーを表示してみた

ちょこっと便利シリーズ第二弾!! github.com pythonのプログラムを書いていて、プログレスバーを表示したいときってありません?? tqdm はそんなあなたのためのツールです。 tqdm means "progress" in Arabic (taqadum, تقدّم) and is an abbreviation fo…

.editorconfigでチーム開発しようよ

本日ご紹介するのはこちらの商品! ででん! editorconfig.org え、君インデントがタブ使ってるの?? 改行コードがなんか違くないこれ? 意味のない空白だらけのコード PEP8則ってないじゃんか。。 こんなお悩みに答えてくれます。 エディタをまたいで、プ…

pythonで実証する、正規分布 ~ 中心極限定理

pythonで実証する、正規分布 ~ 中心極限定理。 正規分布は、ガウス分布、誤差分布とも呼ばれ、平均値の付近に集積するようなデータ分布を表した連続的な変数に関する確率分布です。 そんな正規分布をPythonを使って描画します。

データの変換をコマンドラインで!csvkit

概要 コマンドライン使ってますか! シェル芸人の皆さんは日常茶飯事でしょうけど、そこまで極めることなしに手軽に身近なデータ分析に組み込むことのできるツールをご紹介します。 その名も! csvkit! github.com すぐに特定の変換方法が知りたいせっかち…

kmeansをフルスクラッチ実装

kmeansとは 教師なし学習を用いたクラスタリング手法の1つです。事前情報としてクラスター数(K)を定義してあげることで、指定した数のクラスターにデータを分類することが可能です。 kmeansの具体的なアルゴリズムは下記の通りになります。 各データ に対…

SRA-toolkitを使ってサンプルデータをダウンロード

次世代シーケンサー(NGS)データを学術論文で公表する場合、シーケンサーから出力された配列データやアノテーションに関するデータを公共データベースに登録することが必要です。 このデータ群が登録される先が、International Nucleotide Sequence Database …

骨髄におけるlineage-negativeな細胞とは

Lineage makerとは 一般にLinと略語で書かれることが多く,既知の成熟免疫系細胞で発現している抗原の総称.CD3(T細胞),CD19(B細胞),NK1.1(NK細胞),CD11c(樹状細胞),CD11b(単球),FcεRI(マスト細胞),Gr-1(顆粒球)などが使われることが多…

scRNA-seqを用いたセルタイプの特定

Purpose scRNA-seq解析について知見を深める Title Identifying cell populations with scRNASeq Author Tallulah S.Andrews, Martin Hemberg Motivation これまでは、分子特性ではなく形態学に基づいた200種類程度までのセルタイプの判定を行っていた。 前…

深層学習を用いた遺伝子変異の病原性に関するアノテーション - DANN

www.ncbi.nlm.nih.gov Purpose 個別化医療に向け、変異のpathogenicity (悪性) に関する関心は高まっている。 Deep Learningを使用したアプローチにより変異のpathogenicityをどこまで判断することができるのか把握する。 Title DANN: a deep learning appro…

深層学習を用いた汎用的なVariant Caller - DeepVariant

今回読むのはGoogleのDeepVariantに関する論文。 Googleのhealthcareに対する取り組みとして、Google AI Blogでも紹介されており、Verily Life Sciencesと共同でのGoogle Brainチームによる2年以上の研究の成果となる。 Purpose 配列データにDeep learningを…

もっと論文を読みたい

Intro 時は令和。 kimotonはもっと論文を読みたいと思った。 読みたいなら読めばいいじゃないかといわれそうだが、違う。習慣化してかつ効率良くちゃんと理解して読みたいのだ。 そして構成をブログの構成をIntro、Main、Conclusionの3段構成にすることにし…

【Python】Scanpyを使った single cell RNA解析

GW始まってしまいましたね。 ブログの更新をだいぶ怠っていたので、ちゃっかり更新させて頂きます。 今日はPythonでscRNA-seq解析。Python実装のscRNA解析ツールといえばScanpyがまず思いつきます。 Seuratに比べてそこまで使われていない印象ですが、機能的…

リファレンス配列をリフトオーバー

以前の記事でリファレンス配列についてだらだらと書かせて頂きました。 www.kimoton.com 手持ちのデータは最新のhg19でマッピングされているけれど論文の情報はhg38でのマッピングが行われている場合など、異なるアセンブリのデータを取得したい場合、本来は…

リファレンス配列のお話(GRCh38-hg38-b37-hg19)

今回はリファレンス配列についてご紹介。 リファレンス配列というのは、既知の配列のことを指します。 リシーケンシング解析では、このリファレンス配列と個々の生物のゲノム配列を比較することで、置換、逆位、欠失/挿入などのわずかな配列の違いを明らか…