Article

未処理の塩基配列解読リードから系統樹を直接推定するRead2Tree

Nature Biotechnology 42, 1 doi: 10.1038/s41587-023-01753-4

現在の系統樹推定法は、多大な計算コストと労力をかけて複雑なパイプラインを実行する必要があり、とりわけ大規模なデータセットでは、塩基配列解読のカバー率、およびアセンブリとアノテーションの質に追加的な制約がある。そうした課題を克服するものとして、我々はRead2Treeを紹介する。これは、未処理の塩基配列解読リードを処理して対応する遺伝子群を直接生成し、正確度を維持しながら、ゲノムのアセンブリ、アノテーション、全対全塩基配列比較などの従来的な系統推定ステップを回避する方法である。さまざまなデータセットを含むベンチマークにおいて、Read2Treeはアセンブリに基づく手法の10~100倍高速であり、ほとんどの場合で正確度が高かった(塩基配列解読のカバー率が高く、参照種が極めて遠縁である場合を除く)。今回、このツールの幅広い応用性を示すために、5億9000万年にわたって進化してきた435種の酵母の系統樹を再構築した。また、1万を超えるコロナウイルス科(Coronaviridae)の標本にRead2Treeを用い、極めて多様な動物標本とほぼ同一の重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)群の塩基配列を単一系統樹上で正確に分類した。Read2Treeの速さ、正確さ、汎用性は、大規模な比較ゲノム解析を可能にする。

目次へ戻る

プライバシーマーク制度