Article

ゲノミクス:1000ゲノム時代の多重ゲノムアラインメントツールであるProgressive Cactus

Nature 587, 7833 doi: 10.1038/s41586-020-2871-y

塩基配列解読コストの低下と第3世代塩基配列解読技術の向上の結果、新しいゲノムアセンブリの生成ペースが急激に加速している。例えば、米国立生物工学情報センター(NCBI)のデータベースに登録されている脊椎動物ゲノムアセンブリの数は、2018年7月から2019年7月の1年で50%以上増え、1485例となった。こうした多様な生物種から得られるアセンブリの増大に加えて、ヒトの新しいde novoアセンブリも作成されており、小規模の多型解析だけでなく、ヒトの個体間や異なるハプロタイプ間での複雑で大規模な構造的差異の解析も可能になっている。この来るべき時代とそれがもたらす前例のない量のデータは、ゲノム進化について多くの知見を明らかにする機会をもたらすが、こうした規模の増大に対応すべく現在の解析方法を適応させていく試みにおいていくつかの課題も提示する。参照なしの多重ゲノムアラインメントプログラムであるCactusは、非常に正確であることが示されてきたが、既存の実装ではゲノム数の増加に十分に対応できず、高度に重複した塩基配列領域をうまく処理できない。今回我々は、Cactusを改良した拡張版である「Progressive Cactus」の作成について報告する。Progressive Cactusは、高品質のアラインメントを維持しながら、数十から数千に及ぶ脊椎動物の大規模ゲノムの参照なしアラインメントを可能にする。我々は、これを用いて行った、600例以上の羊膜類ゲノムのアラインメントから得られた結果を示す。これは我々の知る限り、これまでに作成された脊椎動物の多重ゲノムアラインメントとしては最大のものである。

目次へ戻る

プライバシーマーク制度