Computational Biology

固有ゲノムの区分けによるメタゲノムデータセット中の低存在量細菌株の検出

Nature Biotechnology 33, 10 doi: 10.1038/nbt.3329

数十億ないし数兆塩基の深度まで塩基配列が解読されたメタゲノムデータセットを解析することで、数百組の微生物ゲノムを明らかにすることができるが、そうしたデータの単純なアセンブリーはコンピューターに負荷をかけ、数百ギガバイト~数テラバイトのRAMを必要とする。本論文では、生物学的情報を有する区画にリードを分けることで個々のゲノムのアセンブリーを可能とする拡張可能なde novoプレアセンブリー法「LSA(latent strain analysis;潜在株解析)」法を紹介する。LSAは、我々が固有ゲノム(eigengenome)と呼ぶ潜在変数のストリーミング計算によって実行される。固有ゲノムは、短い固定長配列k-merの存在量の共分散を反映する。各ゲノムの試料中存在量は、当該ゲノム中の各k-merの存在量に反映されるため、固有ゲノムの解析を利用すれば、異なるゲノムに由来するリードを区分けすることができる。この区分けは、汎用ハードウェア上でのテラバイトデータのアセンブリーおよびその後の解析を可能とする数十ギガバイトのRAMを使用した固定メモリーで行われる。我々はLSAを使って、相対存在量が0.00001%と低い細菌分類群の部分ゲノムおよびほぼ完全なゲノムのアセンブリーを行った。また、LSAが同じ種の複数株に由来するリードを分離するのに十分な感度を有することも示された。

目次へ戻る

プライバシーマーク制度