Kaggle入門②

Kaggleを制するにはKernelを制すべし。って誰かが言っていたので、適当なKernelを動かしてみることにしました。 Kaggle入門① - Oboretai の続きです。 前回までのあらすじ。 データの前処理(Imputation)を行った後、 様々な側面からデータを可視化した結果…

Kaggle入門①

さぁやって参りました。 Kaggle入門編第一回目。 Kaggleを制するにはKernelを制すべし。って誰かが言っていたので、適当なKernelを動かしてみることにしました。 今回は、Samson Qian | Kaggle氏(きっとスゴイ人)のKernelである Titanic: Beginner's Guide…

Seuratを駆使する会 ①

きっかけ Single-Cell2018 大阪セミナー シングルセル2018 株式会社エー・イー企画2018 に参加した際、dry人口の少なさに驚愕した。 てかそもそもscRNA-seqの日本語の記事ほとんどなくない?? いつも以上に丁寧目を心がけて。Let's Seurat! Seuratってなあ…

Github Flow × WIP PR開発フローを考えた。

きっかけ 開発フローが中途半端に定まってない。 社内で何か知識共有をしたかった WIPでプルリク出すとか、なんかかっこいい。 slideshipでスライド作ってみたかった。 スライド作った。 良かったら見てってくださいな。 slideship使って作ったけどもう使い…

Google で働きたい ②

R

から、Google's R Style Guideに従おうと思う。 前回の続きである。 bioinfo.hatenablog.com General Layout and Ordering If everyone uses the same general ordering, we'll be able to read and understand each other's scripts faster and more easily…

Google で働きたい ①

R

から、Google's R Style Guideに従おうと思う。 File Names File names should end in .R and, of course, be meaningful. ファイル名は.R にしましょう。 自分のRの師匠は.r使ってました。 彼はgoogle入れませんね。 Identifiers Don't use underscores ( _…

R markdown のご紹介 css適用編

Rmarkdownとは Markdown記法をベースに、チャンクという形でRのコードを記述して評価・出力することができるモノ。 pdf, html, word等、あらゆる出力に対応している。 詳細な説明はググってみてください。 良質な記事が山ほどあります。 http://rmarkdown.rs…

`maximal number of DLLs reached...

simpleSingleCellライブラリを入れようとしたら。。 Error in dyn.load(file, DLLpath = DLLpath, ...) : unable to load shared object '~~~': `maximal number of DLLs reached... エラーがでた。 ダイナミックリンクライブラリ (Dynamic Link Library: DL…

アンダースコアとpythonとdundersと

アンダースコアなのかアンダーバーなのか そんなことはどっちでも良い。 問題はpythonでアンダースコア(アンダーバー)がよく登場することだ。 お品書き。 1つのアンダースコアから始まる属性名("_var") 2つのアンダースコアから始まる属性名("__var") …

WSLでVagrant仮想環境構築

Dockerの繁栄により、昨今全く脚光を浴びることがなくなったVagrant Support Hyper-V provider within WSL by chrisroberts · Pull Request #9943 · hashicorp/vagrant · GitHub 18日前にVagrant v 2.1.2がreleaseされ、上記のissueが対応された。 Vagrantに…

とりあえず.gitconfigをいじっとけという話。

Pythonプロフェッショナルプログラミング 第3版作者: 株式会社ビープラウド出版社/メーカー: 秀和システム発売日: 2018/06/12メディア: 単行本この商品を含むブログを見る これすんごい良いです。 まだChapter 06までしか読んでないんですけども。 すんごい…

【R】共有ライブラリ依存関連のエラー解決法

Rのいくつかのパッケージは、標準でUNIXに組み込まれているライブラリのほかに、いくつかのライブラリに依存しているものがある。 こういったものをインストールしようとすると、以下のようなエラーが出る。 Error: package or namespace load failed for ‘p…

markdown 表 幅 変えたい

こんな検索ワードで検索したあなたが引っかかってくれると信じて。 option description -i indexファイル名 -o outputファイル名 -b ブートストラップの回数 --single single-end の場合、付ける。 -l 平均のフラグメント長。ペアエンドの場合、2つのリード…

GNU datamash を使って転置

バイオインフォで扱うデータってcolumnが多い場合が多々あります。 例えば、10X Genomicsの公開データ(bam)をsamtoolsで見てみると。 kimoton@DESKTOP-BL78EM7:~$ samtools view http://s3-us-west-2.amazonaws.com/10x.files/samples/cell-exp/2.1.0/pbmc…

R 3.5.0 へのアップデート(PPA利用)

きっかけ 最近のRパッケージ(今回はsinglecell解析に使うパッケージ)がR 3.5.0でないと動かない。。 Bioconductor - SingleCellExperiment (development version) R 3.5.0入れたdocker imageを動かそうとも考えたけど、データのマウントとか面倒そう。。 W…

googledrive内のファイルをRから操作 - googledrive

R

An Interface to Google Drive • googledriveを使ってみた 特徴 ほとんどの関数はdrive_で始まっているおかげでgoogledriveパッケージの関数を自動補完で呼び出しやすい。 find, ls, mv, cp, mkdir, rmといったUINIXコマンドを打つようにgoogleドライブを操…

WSL (Windows Subsystem for Linux) で文字化け

An Interface to Google Drive • googledriveこれ使ってgoogledriveをコマンドからいじれるようにしたかったのにそもそもWSL内にgoogle-chromeが入ってなかった。 google-chromeをインストール google-chromeをインストールします。 署名鍵のダウンロード、…

クラスタの特徴を知る - radarchart

R

クラスタリングを行ったあと、各クラスタがどんな特徴を持っているのか知りたいときはレーダーチャートを書いたりする。 radarchart関数を使う radarchart(df)でとりあえずのレーダーチャートはかける。ここで与えるデータフレームは df The data frame to b…

非線形クラスタリング k-means

k-meansの必要なところだけ。 k-meansとは 非階層的クラスタリング手法の1つ。 要するに何をしているのか k個のクラスターの初期位置を決める。 各データをk個のクラスターとの距離を求め、最も近い位置のクラスターに分類。 形成されたクラスターの中心を…

SAM format

SAM format リードをマッピングした結果の情報を示すのにSequence Alignment/Map (SAM) formatという形式がよく使われる。 SAM format は@から始まるheader行と、それに続く以下の11列から構成されるアライメントセクションによって構成される。 アライメン…

[tcl] grab failed: window not viewable.

R

RのパッケージをCRANから落とす際、 > install.packages(pkg) --- このセッションで使うために、CRAN のミラーサイトを選んでください --- structure(.External(.C_dotTclObjv, objv), class = "tclObj") でエラー: [tcl] grab failed: window not viewable.…

共有ライブラリ

Rの標準ライブラリ(pngなど)がないと怒られた。 入れようとしたら、 install.packages("png") ・ ・ ・ ** testing if installed package can be loaded Error: package or namespace load failed for ‘png’ in dyn.load(file, DLLpath = DLLpath, ...): 共…

アセンブリの良し悪しの指標:N50、L50、NG50

出会い 次世代シーケンサーのアセンブル結果を示す指標として、N50というものがあることを、つい最近知った。まずい。 以下のように使われる。 PacBio(RSII)にBioNano社が開発したIrys(DNA上の特定の配列に蛍光標識をしてスキャナーで蛍光を読み取る)に…

`__pycache__` の役割

__pycache__ というディレクトリがそろそろ気になってきた。 なんか気づいたらできてる。 なんなんだこれは。 以下で議論されていた。 python 3.x - What is __pycache__? - Stack Overflow 要点をまとめると。 ファイルをインポートした際にできる python c…

anacondaでR

Rのパッケージを入れる際、依存関係の問題でエラーが起きるせいでpipやinstall.packages()を用いてインストールできないことが多々ある。 CRANに登録されているRパッケージをインストールするには、以下のように明示的に示すと良い。 $ R > install.packages…

SeqPrep - overlap除去、アダプター配列の除去

SeqPrep github.com SeqPrepはPandaSeqとは違うアルゴリズムのoverlapをマージするツール。 https://github.com/jstjohn/SeqPrep TechSupport@illumina.comからイルミナにアダプター配列のリストをもらえたりするらしい。 アダプター配列は自分でリード見て…

fastp - fastqファイルの操作

https://github.com/OpenGene/fastp fastp A tool designed to provide fast all-in-one preprocessing for FastQ files. This tool is developed in C++ with multithreading supported to afford high performance. Fastqファイルの前処理全てが素早く実行…

reshape::melt を用いたデータ整形

R

reshape2 ggplot2はRでプロットする際に頻繁に用いられる。 しかし、Excelのデータをcsvにしてそのまま読み込んでggplot2に渡したところで、データの形を勝手に判断してくれるわけがない。ggplotはわがままなので、データの整形という処理が必要だ。 いって…

pandaseq の使い方

前の記事で紹介したtoolの1つ。pandaseq を使ってみる。 github.com インストールは簡単。 まず git clone https://github.com/neufeld/pandaseq.git 中に入って sudo apt-get install build-essential libtool automake zlib1g-dev libbz2-dev pkg-config .…

single-end read, paired-end readsのおはなし

きっかけ paired-endのサンプルのoverlapを取り除く方法を検討してたらいろいろ整理されてる記事に巡り合えたので和訳しつつ理解を深める single-end, paired-end fastqファイルには、シーケンシングのされ方で2種類ある。UCSCなんかからfastqをダウンロード…