bioinfomatics

FASTQファイル - 塩基配列を格納するためのフォーマット

お疲れ様です。9月です。寒いです。 本日はバイオインフォマティクスの基礎の基礎。 FASTQファイルについて見ていきましょう。 ショートリードを生成するシーケンサーだと、だいだい <~200 bpの塩基配列を取得できます。 大抵の場合、シーケンサから出力され…

EMBOSSでアライメント

アライメント。 要するに配列を比較し、並べる操作を指します。 遺伝子の発現量を測定したいときなど、遺伝子解析においてはアライメントを必要とする場面が多々登場します。 配列の類似度を表す基準は複数あり、その計算方法も複数あるため、いろんなアライ…

NCBI EntrezからFastaファイルをダウンロード

NCBI Entrez は、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、情報抽出システムです。 BiopythonパッケージのBio.Entrezモジュールを使えば、このシステムをpythonから手軽に使えちゃいます。 ちなみに、Bio.En…

chip-seqを理解する

ChIP-seqとは Chromatin Immuno Precipitaton の略。 抗原抗体反応を利用して、抗原タンパク質が結合しているクロマチン構造を免疫沈降させ、クロマチン内に含まれるDNAを濃縮する手法。 ヒストンや転写因子に対して、それらを認識する抗体を取ってくる。 ゲ…

Seuratを駆使する会 ①

きっかけ Single-Cell2018 大阪セミナー シングルセル2018 株式会社エー・イー企画2018 に参加した際、dry人口の少なさに驚愕した。 てかそもそもscRNA-seqの日本語の記事ほとんどなくない?? いつも以上に丁寧目を心がけて。Let's Seurat! Seuratってなあ…

SeqPrep - overlap除去、アダプター配列の除去

SeqPrep github.com SeqPrepはPandaSeqとは違うアルゴリズムのoverlapをマージするツール。 https://github.com/jstjohn/SeqPrep TechSupport@illumina.comからイルミナにアダプター配列のリストをもらえたりするらしい。 アダプター配列は自分でリード見て…

fastp - fastqファイルの操作

https://github.com/OpenGene/fastp fastp A tool designed to provide fast all-in-one preprocessing for FastQ files. This tool is developed in C++ with multithreading supported to afford high performance. Fastqファイルの前処理全てが素早く実行…

single-end read, paired-end readsのおはなし

きっかけ paired-endのサンプルのoverlapを取り除く方法を検討してたらいろいろ整理されてる記事に巡り合えたので和訳しつつ理解を深める single-end, paired-end fastqファイルには、シーケンシングのされ方で2種類ある。UCSCなんかからfastqをダウンロード…