AIによるタンパク質構造予測が飛躍的に進化
アミノ酸配列からタンパク質の三次元構造を決定することは、生物学の最重要課題の1つである。この問題の解決に向けて、グーグル傘下の人工知能(AI)企業ディープマインド社(英国ロンドン)が開発したAIネットワークは、飛躍的な進歩を遂げた。
ディープマインド社のAlphaFoldというプログラムは、2020年のタンパク質構造予測精密評価CASP14(Critical Assessment of Structure Prediction:タンパク質構造の正確な予測に必要な計算手法の改良を目的に1994年に創設され、2年に1度開催)で、約100の他の参加チームを凌駕した。CASPのコンペは数カ月かけて実施される。参加チームは、実験によって構造は決定されているが、結果が公開されていないタンパク質の構造を予測する。100個ほどのタンパク質やタンパク質の一部(ドメイン)のアミノ酸配列が順次公開され、参加チームは数週間かけて構造を予測する。予測の評価は独立の研究者からなるチームが行い、評価には、予測された構造が実験で決定された構造にどの程度近いかを測定する指標が用いられる。なお評価者は、参加チームの素性を特定できない。
メリーランド大学(米国カレッジパーク)の計算生物学者で、CASPの共同創設者John Moultは、「これは重大な事件です。ある意味、問題は解決しました」と語る。
アミノ酸の配列からタンパク質の構造を正確に予測できるようになれば、生命科学や医学は大きな恩恵を受けるだろう。細胞の構成要素の解明に向けた取り組みは大幅に加速され、より高度な創薬が促進されるだろう。
ディープマインド社は前回(2018年)のCASP13に初めて参加し、AlphaFoldはいきなりトップに立った。そして今回、アップグレードしたAlphaFoldは他のチームを大きく引き離した。研究者たちは、その圧倒的な性能は生物学に革命を起こすかもしれないと期待する。コンペで予測の評価を行ったマックス・プランク発生生物学研究所(ドイツ・チュービンゲン)の進化生物学者Andrei Lupasは、「AlphaFoldはゲームチェンジャーです」と言う。AlphaFoldのおかげで、彼の研究室は10年間も悩まされてきたタンパク質の構造を解明できた。「これは医学を変えるでしょう。研究を変え、生物工学を変え、全てを変えることになるでしょう」とLupas。
AlphaFoldが予測した構造の中には、X線結晶構造解析法や低温電子顕微鏡法などの「標準的」な実験手法で決定されたものと区別がつかないレベルのものもあった。研究者たちは、AlphaFoldの登場によって、これらの手間と費用のかかる手法が不要になることは(今のところは)ないだろうが、新しい方法で生物を研究することが可能になるとみている。
構造の問題
タンパク質は生命の構成要素であり、細胞内事象のほとんど全てを担っている。タンパク質の機能や作用は、その立体構造によって決まる。タンパク質は、物理法則だけに導かれて、自然にその構造を取る傾向がある。
タンパク質の構造は、何十年もの間、主に実験によって明らかにされてきた。1950年代からは、結晶化したタンパク質にX線を照射し、その回折光を測定してタンパク質の原子座標に変換することで、タンパク質の構造を完全に決定できるようになった。現在分かっているタンパク質構造の多くがX線結晶構造解析法で決定されている。だが最近では、低温電子顕微鏡法が多く用いられるようになっている。
研究者たちは長年、アミノ酸がどのようにしてタンパク質の立体構造のねじれや折り畳みを決定するのか疑問に思っていた。1980〜1990年代にかけて行われた、コンピューターを使った立体構造の予測は、あまりうまくいかなかった。論文では高精度の予測が可能とされた手法も、別の研究者が別のタンパク質に適用すると散々な結果に終わることが珍しくなかった。MoultがCASPを始めたのは、こうした挑戦の精度を高めるためだった。
ディープマインド社が2018年に収めた成績は、まだ小規模な学術チームのとりでであったこの分野の研究者たちを驚かせた。しかしシカゴ大学(米国イリノイ州)の計算生物学者Jinbo Xuは、ディープマインド社の当時のアプローチは、AIを利用する他のチームのアプローチと広い意味では同様のものだったと説明する。
AlphaFoldの最初のイテレーションでは、ディープラーニングとして知られるAI手法を構造データと遺伝子データに適用し、タンパク質中のアミノ酸ペアの間の距離を予測した。ディープマインド社でプロジェクトを率いるJohn Jumperによると、AlphaFoldは次の段階ではAIを利用せず、この情報を使って、当該タンパク質がどのような形に見えるかを示す「コンセンサス」モデルを作ったという。チームはこのアプローチに基づいて開発を進めようとしたが、やがて壁にぶつかった。そこで方針を変え、タンパク質の折り畳みを決定する物理的・幾何学的な制約に関する情報を追加したAIネットワークを開発した。そしてこのネットワークに、より困難な課題を与えた。アミノ酸同士の関係を予測させる代わりに、標的タンパク質の配列の最終的な構造を予測させたのだ。「これは非常に複雑なシステムです」とJumperは言う。
驚異的な精度
AlphaFoldの予測は「グループ427」という名前で提出されたが、その多くが驚くほど高精度で、目立っていたとLupasは言う。「私は、『グループ427』はAlphaFoldだろうと推測していました。ほとんどの人がそう思っていました」。
AlphaFoldの予測の精度にはばらつきがあったが、その3分の2近くが、実験により決定された構造に匹敵する質だった。Moultによると、AlphaFoldの予測と実験結果の不一致が予測の間違いなのか実験のアーチファクトなのか、はっきりしないケースもいくつかあったという。さらに、タンパク質複合体中の個々の構造のモデルも構築することができた。
構造決定の迅速化
AlphaFoldの予測は、Lupasの研究室が何年も前から取り組んでいた細菌タンパク質の構造の解明に役立った。研究チームは、生のX線回折データは収集していたが、回折パターンを構造に変換するにはタンパク質の形状に関するある程度の情報が必要だった。そのためにいろいろ工夫したり他の予測ツールを用いたりしたが、うまくいかなかった。「ところが427グループのモデルのおかげで、30分で構造が分かったのです」とLupasは言う。
ディープマインド社の共同創立者で最高経営責任者であるDemis Hassabisは、同社はAlphaFoldを他の研究者も利用できるようにする計画があると言う(同社は、AlphaFoldの最初のバージョンについて詳細な情報を公開しており、他の研究者が彼らのアプローチを再現できるようにした)。AlphaFoldは、タンパク質のさまざまな領域の構造予測の信頼度を見積もることも含め、結果を出すのに数日かかることがある。Hassabisは、「私たちは生物学者が何を求めているのか、ようやく理解し始めたところなのです」と言う。
2020年初頭、ディープマインド社は、当時はまだ実験で決定されていなかったいくつかのSARS-CoV-2タンパク質の構造を予測し発表した。そのうちの1つ、Orf3aタンパク質は、カリフォルニア大学バークレー校(米国)の分子神経生物学者Stephen Brohawnが、低温電子顕微鏡法によってその構造を決定して同年6月に発表した。Brohawnは、AlphaFoldが予測した構造と自分たちが実験で決定した構造はよく一致していたと語る。「彼らはとてつもないことを可能にしたのです」。
AlphaFoldの登場により、実験によってタンパク質の構造を解き明かす研究室が不要になることはないだろう。しかしながら、粗い実験データさえあれば、高精度の構造を得られるようになるかもしれない。今後は、いくつかの応用、例えばタンパク質の進化の分析などが盛んになるだろう。「新世代の分子生物学者たちは、さらに先にある課題に取り組むことが可能になるでしょう。手を動かすよりも考える作業が必要になるでしょうね」とLupasは語る。
翻訳:三枝小夜子
Nature ダイジェスト Vol. 18 No. 3
DOI: 10.1038/ndigest.2021.210302
原文
‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures- Nature (2020-11-30) | DOI: 10.1038/d41586-020-03348-4
- Ewen Callaway