2018-01-01から1年間の記事一覧

これで決まり!最強自動コード整形ツール3選!

いやいや何が決まり!だよ、全然決まらねーよっていうタイトルすみません。 キャッチーなタイトルをつける検証をしています。 きっかけ 自動コード整形ツール。弊社では全く導入されていない。 何故か。 知らないからだ。 vimプラグインと手作業での修正とい…

実践投入!pipenv!

概要 新しいも面白いも楽しいも正義なんだよ— いちたる (@_kimoton) December 18, 2018 ということで、やっていきましょうpipenv 前回の以下の記事ではPipenvのインストールとPython3.7.1環境の作成を行いました。 今回はもうちょっと真面目にPipenvを使って…

Scrapyのインストール

今更ですがScrapyのインストールについて詳しめに。 Scrapyの動作環境 Scrapy runs on Python 2.7 and Python 3.4 or above under CPython (default Python implementation) and PyPy (starting with PyPy 5.9). ScrapyはPython2.7、若しくはPython>=3.4のも…

WSL + Hyper + fish shell + pipenv + docker環境を整える

本日Dockerを使用していて、 ユーザーディレクトリをマウントしたまま夢の $ rm -rf / を試しに行いましたところ。 ユーザーディレクトリ以下がすべて消えたkimotonです。 これまでWSL + wsl-terminal + bashを使っていたのですが、そろそろモダンな環境への…

ライセンス(L)GPLのお話(PySide/PyQt)

概要 PyQtを使うか、PySideを使うか。 ん。何が違うんだ。 一番怖いのはライセンスの部分。 以下はPyQtのGithiub GPLとなっている。 一方こちらPySideのGithub LGPLとなっている。 Githubに公開されているようなオープンソースのソフトウェアはほとんどがこ…

Dockerfileにおけるキャッシュの削除

Dockerfileを見ていて Dockerfileでは、以下のように指定することが多い。 うん。割とどのDockerfileでもこうやっている。 RUN apt-get update && apt-get install -y \ aufs-tools \ automake \ build-essential \ curl \ dpkg-sig \ libcap-dev \ libsqlit…

PostgreSQLに入門してみる

いまだにRDBをあまり使ったことがない。 恥ずかしい。 ということで、巷で有名なPostgreSQLを使用してみた! インストール PostgreSQL: Downloadsからお手持ちのOSに合ったバイナリを落としてきてください。 手順に沿えば勝手にインストールされるはずです。…

親クラスの位置引数(positional argument)が子クラスで迷子になっちゃう件。

※ 2020/02/21 色々説明不足な点を追記 昔血迷ってただけの文章なので優しい目で読んで下さい。 きっかけは。 まだそんなに開発が進んでいないが、とっても気になるリポジトリを見つけた。 github.com scrapy-selenium。要するに、Scrapy上でSeleniumを使用で…

Scrapyチュートリアル

概要 毎度おなじみScrapyです。 Scrapyを使ったクローリングツールの作成手順として、Scrapyのチュートリアルでは以下のような手順を辿っています。 Scrapyのプロジェクトを作成。 Spiderと呼ばれる、クローリングを行い、データの抽出を行うためのクラスを…

Scrapyのアーキテクチャ

Scrapyは、Python製のスクレイピング用フレームワークです。 Scrapyのアーキテクチャ・設計を見ることで、Scrapyの内部で何が起きているのか、その全貌をざっくり理解しましょう。

Scrapyことはじめ

Scrapyは、Python製のスクレイピング用フレームワークです。 Scrapyのごく簡単なチュートリアルを紹介しつつ、Scrapyを使用するメリットについて、考察します。 BeautifulSoupや、Seleniumだけでは足りない処理とは。。

Seurat を駆使する会②

SeuratはシングルセルRNA解析で頻繁に使用されるRのパッケージです。 Seuratを用いたscRNA解析について、CCAによるbatch effect除去などを含めた手法を丁寧に解説します。

つぶやきたい

前略、お元気ですか。昔のkimoton様 昔の人と話して、最近の自分が圧倒的に普遍的なことばかり書いている、話していることに気づいた。 なぜだ。これが社会の闇というやつか。 昔はもっと自由に書いていた。まぁただ感じたままの現実を綴っていただけだった…

Docker入門

はじめに Docker って何? メリット デメリット 継続的インテグレーション(Continuous Integration)を加速する Docker コマンド 公開されているDocker イメージを使いたい! 今ローカル環境に存在するイメージを知りたい! コンテナを生成して起動したい!…

fastqファイルのクオリティをチェック - FastQC

QCとは バイオインフォマティクスの解析では、通常シーケンサから出力されたリードの配列データを入力データとします。 このデータから、様々な解析を行い、生物学的な意味合いを見出すのですが、 その前に、そのデータが本当に解析する価値のあるものなのか…

配列のクオリティーコントロール - FASTX-toolkit

はじめに FASTX toolkitは、ショートリードのfastqファイルの前処理に使用されるコマンドラインツールの集合です。 低クオリティーのリードを除去したい場合や、クオリティーを基準に塩基をトリミングしたい際等に使用されます。 似たようなツールとしては、…

Sphinxでドキュメント作成 - github.ioでの公開まで

Sphinx とは Python製のドキュメント生成ツール。 特徴としては以下の通り。 reStructuredTextで記述する(プラグインの導入によりMarkdownも可) ドキュメントを複数ファイルに分けて管理することができる 実体はプレーンテキストなのでGit等でバージョン管…

Juliaでパッケージの利用 & OhMyREPLでREPLの強化

パッケージ概要 再利用可能な関数などを集めたスクリプトファイルのことをモジュールと呼びます。 さらに、同系列のモジュールを集めたものをパッケージと呼びます。外部のツールの多くは、このパッケージという単位で公開されています。 そういえばこんなツ…

Rのtmpディレクトリ

R

とあるRのツールを実行した際、こんなエラーが出た。 Fatal error: cannot create 'R_TempDir' Rの一時ディレクトリが作れないと。 なるほど。なんでだ。 R_TempDirという環境変数でディレクトリが設定されているのかと思って下記を打つも登録されていない。…

scRNA解析に有用 - SingleCellExperiment クラス

SingleCellExperimentクラス single cell RNA (scRNA-seq) 解析のためのS4 Classesです。 様々なscRNA-seq解析のパッケージで採用されており、scRNA-seq解析に有用なデータを保持しながら解析を進めることができます。 Bioconductor Bioconductor - SingleCe…

Julianへの道② - 多層ディスパッチ

多層ディスパッチ 多層ディスパッチとは、複数バージョンを持ち、そのバージョンが引数によって区別されるような関数のことを指すらしい。 Python2.4で実装されたmmモジュール内のmultithred関数を参考に、多層ディスパッチの実装について理解を試みた。 単…

遺伝子突然変異のお話とその種類

なんかただのエンジニアみたいなブログになってきたため、たまには生物学的なお話を。 遺伝子突然変異とは 呼んで字の如く、遺伝子上の塩基配列が変化することを指す。 生物学をあまり知らない人からは、単に遺伝子変異と呼ばれやすいかもしれない。 核・ミ…

Julianへの道①

また関係のないことに手を伸ばしてしまう。。 japan.techrepublic.com 「C」言語のスピードと「Python」の使いやすさ、「Ruby」の動的型付け、「MatLab」の強力な数学的能力、「R」言語の優れた統計機能の融合を目指した 謳い文句がかっこいい。。 インスト…

日本語フォントが使えるTeX Live環境の構築

CentOS7に TeX Live 2016 をインストール TeX Liveとは TeX Live は TeX のディストリビューションです. TeX の超巨大な集大成ともいえるもので,現在では国際的に最も普及している最新の TeX ディストリビューションです. TeX Live - TeX Wiki 超巨大な集…

FASTQファイル - 塩基配列を格納するためのフォーマット

お疲れ様です。9月です。寒いです。 本日はバイオインフォマティクスの基礎の基礎。 FASTQファイルについて見ていきましょう。 ショートリードを生成するシーケンサーだと、だいだい <~200 bpの塩基配列を取得できます。 大抵の場合、シーケンサから出力され…

EMBOSSでアライメント

アライメント。 要するに配列を比較し、並べる操作を指します。 遺伝子の発現量を測定したいときなど、遺伝子解析においてはアライメントを必要とする場面が多々登場します。 配列の類似度を表す基準は複数あり、その計算方法も複数あるため、いろんなアライ…

NCBI EntrezからFastaファイルをダウンロード

NCBI Entrez は、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、情報抽出システムです。 BiopythonパッケージのBio.Entrezモジュールを使えば、このシステムをpythonから手軽に使えちゃいます。 ちなみに、Bio.En…

Windowsでメモリ計測

WindowでもLinuxのpsコマンドみたいにメモリを監視したい。 以下を参考にした。 takigawa401.hatenablog.com chkmmr.batというバッチファイルを作成する。 @echo off :label01 echo %date% %time% tasklist /fi "imagename eq python.exe" ping localhost -n…

chip-seqを理解する

ChIP-seqとは Chromatin Immuno Precipitaton の略。 抗原抗体反応を利用して、抗原タンパク質が結合しているクロマチン構造を免疫沈降させ、クロマチン内に含まれるDNAを濃縮する手法。 ヒストンや転写因子に対して、それらを認識する抗体を取ってくる。 ゲ…

R Notebookチュートリアル

以前、jupyter notebookでRのカーネルを使用する方法をご紹介した。 www.kimoton.com そこでは、R markdownのがイイヨ!みたいに終わらせた気がする。 しかし、Rmarkdownは確かにとっても便利な代物なのだが、毎回毎回全部のコードを実行しなければレポート…