交差テーブルの命名法

きっかけ RDBにおいて、変異と患者、変異とメタデータ等、多対多の関係で複数のテーブルを紐づける際に必要なのが(厳密に言うと定義すべきなのが)、交差テーブルです。 (参照:SQLアンチパターン - ジェイウォーク) この命名法として、variants_patients…

【Python】 tqdmでプログレスバーを表示してみた

ちょこっと便利シリーズ第二弾!! github.com pythonのプログラムを書いていて、プログレスバーを表示したいときってありません?? tqdm はそんなあなたのためのツールです。 tqdm means "progress" in Arabic (taqadum, تقدّم) and is an abbreviation fo…

.editorconfigでチーム開発しようよ

本日ご紹介するのはこちらの商品! ででん! editorconfig.org え、君インデントがタブ使ってるの?? 改行コードがなんか違くないこれ? 意味のない空白だらけのコード PEP8則ってないじゃんか。。 こんなお悩みに答えてくれます。 エディタをまたいで、プ…

pythonで実証する、正規分布 ~ 中心極限定理

pythonで実証する、正規分布 ~ 中心極限定理。 正規分布は、ガウス分布、誤差分布とも呼ばれ、平均値の付近に集積するようなデータ分布を表した連続的な変数に関する確率分布です。 そんな正規分布をPythonを使って描画します。

データの変換をコマンドラインで!csvkit

概要 コマンドライン使ってますか! シェル芸人の皆さんは日常茶飯事でしょうけど、そこまで極めることなしに手軽に身近なデータ分析に組み込むことのできるツールをご紹介します。 その名も! csvkit! github.com すぐに特定の変換方法が知りたいせっかち…

kmeansをフルスクラッチ実装

kmeansとは 教師なし学習を用いたクラスタリング手法の1つです。事前情報としてクラスター数(K)を定義してあげることで、指定した数のクラスターにデータを分類することが可能です。 kmeansの具体的なアルゴリズムは下記の通りになります。 各データ に対…

SRA-toolkitを使ってサンプルデータをダウンロード

次世代シーケンサー(NGS)データを学術論文で公表する場合、シーケンサーから出力された配列データやアノテーションに関するデータを公共データベースに登録することが必要です。 このデータ群が登録される先が、International Nucleotide Sequence Database …