Linux

データのクオリティをチェック - FastQC

データのQCとは バイオインフォマティクスの解析では、通常シーケンサから出力されたリードの配列データを入力データとします。 このデータから、様々な解析を行い、生物学的な意味合いを見出すのですが、 その前に、そのデータが本当に解析する価値のあるも…

配列のクオリティーコントロール - FASTX-toolkit

はじめに FASTX toolkitは、ショートリードのfastqファイルの前処理に使用されるコマンドラインツールの集合です。 低クオリティーのリードを除去したい場合や、クオリティーを基準に塩基をトリミングしたい際等に使用されます。 似たようなツールとしては、…

日本語フォントが使えるTeX Live環境の構築

CentOS7に TeX Live 2016 をインストール TeX Liveとは TeX Live は TeX のディストリビューションです. TeX の超巨大な集大成ともいえるもので,現在では国際的に最も普及している最新の TeX ディストリビューションです. TeX Live - TeX Wiki 超巨大な集…

EMBOSSでアライメント

アライメント。 要するに配列を比較し、並べる操作を指します。 遺伝子の発現量を測定したいときなど、遺伝子解析においてはアライメントを必要とする場面が多々登場します。 配列の類似度を表す基準は複数あり、その計算方法も複数あるため、いろんなアライ…

メモリの監視とインスタンスの決定

AWSやAzureに移行したい。 そんな時、インスタンスのスペックを決定する必要がある。 インスタンスのスペックを決定するには、 メモリサイズ CPU数 ストレージサイズ の3つがわかればよい。 以下のようなスクリプトを使えば、実行しているプロセスに関するps…

GNU datamash を使って転置

バイオインフォで扱うデータってcolumnが多い場合が多々あります。 例えば、10X Genomicsの公開データ(bam)をsamtoolsで見てみると。 kimoton@DESKTOP-BL78EM7:~$ samtools view http://s3-us-west-2.amazonaws.com/10x.files/samples/cell-exp/2.1.0/pbmc…

WSL (Windows Subsystem for Linux) で文字化け

An Interface to Google Drive • googledriveこれ使ってgoogledriveをコマンドからいじれるようにしたかったのにそもそもWSL内にgoogle-chromeが入ってなかった。 google-chromeをインストール google-chromeをインストールします。 署名鍵のダウンロード、…

共有ライブラリ

Rの標準ライブラリ(pngなど)がないと怒られた。 入れようとしたら、 install.packages("png") ・ ・ ・ ** testing if installed package can be loaded Error: package or namespace load failed for ‘png’ in dyn.load(file, DLLpath = DLLpath, ...): 共…