ゲノム組み立てプログラムの比較
DNA配列を工業的に解読することは、もはや難しい話ではなくなっている。課題は、第二世代のシーケンサーから吐き出される無数の短い重複断片データから、ゲノム全体を組み立てることだ。その作業用のコンピューター・プログラム(アセンブラー)は20種類以上あるが、いずれも弱点を抱えている。そうした中で、どれを選べばよいのか、生命科学の研究者は知りたがっている。
その答えが、3件のゲノム組み立て法評価プロジェクトから得られるかもしれない。いずれも、配列の生データに対して異なるアルゴリズムを試し、結果を比較しようとするものだ。
「ひとり勝ち」は決してないだろう、と研究者は予想する。絶対的な品質保証ができるような統一的方法はなく、ゲノムデータの種類ごとに最適なアセンブラーがあるのかもしれない。
評価プロジェクトの1つ目は「アセンブラソン」。設立に加わったカリフォルニア大学デービス校(米国)のIan Korfは、「私の夢は、今から数年で、ゲノムプロジェクトに取り組もうとする人が、『私たちの予算はこれだけで、これが調べたいゲノムの特徴です。この条件にいちばん合った配列解読法とゲノム組み立てプログラムはどれですか』と聞けるようになることです」と語る。
2010年12月、アセンブラソンは、コンピューターでヒトゲノムのシミュレーションデータを作り、公開した。そして、このデータから任意のアセンブラーを使ってゲノムをつなぎ合わせるという作業を行う研究チームを募集した。応募したのは、7か国17組。Korfのチームは、ゲノムの組み立て結果(DNAの大きな塊に組み立てられたゲノムの部分〈コンティグ〉など)の質に関して、それぞれの組み立て法を評価した。使ったのは、一般的な評価基準と、どれだけの遺伝子をとらえることができたかといった特別な評価基準などである。
2011年3月中旬、カリフォルニア大学サンタクルーズ校(米国)で開かれた会議で発表された勝者は、ブロード研究所(米国マサチューセッツ州ケンブリッジ)が開発したALLPATHS-LG、ブリティッシュコロンビア州がん庁ゲノム科学センター(カナダ・バンクーバー)が開発したABySS、それに北京ゲノミクス研究所が開発したSOAPdenovoだった。しかし、それぞれの組み立て結果の質を決めるのは「ソフトウェアそのものではなく、人間がそれをどう動かしているかです」とKorfは指摘する。
2つ目の評価プロジェクトは、国立ゲノム分析センター(スペイン・バルセロナ)で進められているdnGASP。その結果は、4月4日から7日にかけて開かれるワークショップで発表されることになっている。
3つ目はメリーランド大学(米国カレッジパーク)のSteven Salzbergを中心とするプロジェクトで、評価しているアセンブラーはわずか5種類だが、その中にはALLPATHS-LGとSOAPdenovoも含まれている。Salzbergのグループは、すべての組み立てを実行させて評価する予定だ。また、アルゼンチンアリやマルハナバチの1種など、4種類の実際の生物ゲノムデータも利用する。「シミュレーションデータだと各アセンブラーが実際にどう働くのか、本当の姿がわからないからです」とSalzbergは話す。
アセンブラソンも今年末までには再度評価を開始し、オウムとシクリッド(魚類の1種)というこれまでに公開されていない2組のゲノムの組み立て作業を比較することにしている。
以上3件の比較コンテストは、一般的なイルミナ社のシーケンサーで得られたデータに焦点を絞っている。しかし、新しい配列解読法が来年にも実用化される予定で、その一例が、パシフィック・バイオサイエンシーズ社(米国カリフォルニア州メンローパーク)による一分子リアルタイム(SMRT)法だ。得られる個々の読み取り結果は長いものの、エラー率が高いとされている。
これが新たな挑戦課題を生み出している、とイリノイ大学アーバナ・シャンペーン校(米国)の昆虫学者で、ハチの配列データをメリーランド大学のプロジェクトに提供しているGene Robinsonは語る。「生物学者が本当に欲しがっている組み立てアルゴリズムとは、複数の形式による読み取り結果を利用して、最善の組み立てを実行できるものだからです」と言う。 コンテストは始まったばかりだ。
翻訳:小林盛方
Nature ダイジェスト Vol. 8 No. 6
DOI: 10.1038/ndigest.2011.110623
原文
Genome builders face the competition- Nature (2011-03-24) | DOI: 10.1038/471425a
- Erika Check Hayden