Feature

タンパク質構造予測AIによる革命と「その先」

ヒト細胞の中で最大の分子機械「核膜孔複合体」を上から見たところ。 Credit: ADAPTED FROM REF. 3 AGNIESZKA OBARSKA KOSINSKA

マックス・プランク生物物理学研究所(MPIBP;ドイツ・フランクフルト)の分子生物学者Martin Beckらは、10年以上前から世界で最も難解なジグソーパズルの1つに挑戦している。ヒト細胞の中で最大の分子機械である核膜孔複合体について、詳細なモデルを構築しようとしているのだ。

個々の細胞にはこの巨大な構造体が数百個ずつあり、ゲノムを格納する細胞核に出入りする分子の流れを制御している。1つの核膜孔複合体は1000個以上のタンパク質からなり、核膜を貫通する孔の周りに環状の構造体を形成している。

この約1000ピースのパズルにおいて、個々のピースに相当するタンパク質(ヌクレオポリンと総称される)は約30種あり、これらがさまざまな仕方でかみ合っている。ヌクレオポリンの立体構造は実験的に決定されているものの、別の生物種のものだとうまくかみ合わないことがある上、完成図に当たる低解像度の立体画像は得られているが、ぴったりかみ合うピースがいくつあるかまでは分からない。

Beckが率いるチームは2016年、核膜孔複合体の約30%とヌクレオポリンの約半数をカバーするモデル1を発表した。

しかし2021年7月、ディープマインド社(英国ロンドン;グーグルの親会社アルファベット傘下)が、人工知能(AI)ツール「AlphaFold」を公開した2ことで、Beckの仕事や他の数千人の生物学者の研究はがらりと変わった。このソフトウエアは、タンパク質のアミノ酸配列から立体構造を予測することができ、多くの場合、その精度は非常に高い。(「AlphaFoldがもたらした熱狂」参照)。

AlphaFoldがもたらした熱狂
2021年7月にAIソフトウエア「AlphaFold2」のソースコードが公開された。以来、これを引用する研究論文やプレプリント論文の数は急増している*
*解析はNatureがDimensionsデータベースを用いて行った。重複するプレプリント論文と研究論文は除去済み。
R. Van Noorden, E. Callaway

エルサレム・ヘブライ大学(イスラエル)の計算構造生物学者で、AlphaFoldを使ってタンパク質間相互作用のモデルを作成しているOra Schueler-Furmanは、「AlphaFoldの影響はあらゆる所で見られます。私たちの分野は、2021年7月の前と後では大きく様変わりしました」と言う(2021年10月号「ディープマインド社のAIがヒトのほぼ全てのタンパク質の構造を予測」参照)。

Beckは、同僚である分子生物学者Agnieszka Obarska-Kosinskaや生物物理学者Gerhard Hummerのグループと、欧州分子生物学研究所(EMBL;ドイツ・ハンブルク)の計算構造生物学者で構造モデル構築に取り組むJan Kosinskiのグループと共に、AlphaFoldを使って、ヒトのヌクレオポリンの構造をより正確に予測することができた。また2021年10月には、タンパク質間相互作用をモデル化できるように微調整したAlphaFoldを利用して、核膜孔複合体の60%をカバーするモデルも発表した3。このモデルによって、核膜孔複合体が核膜孔を安定化させる仕組みが明らかになったほか、細胞核への物質の出入りを複合体が制御する仕組みも示唆された。

公開後数カ月で、生命科学界はAlphaFoldがもたらした熱狂に包まれた。「何かの会合に出るたびに、誰かが『AlphaFoldを使う?』と言うのです」と、ロンドン大学ユニバーシティカレッジ(英国)の計算生物学者Christine Orengoは話す。

AlphaFoldの出現によって、科学者の時間節約のほか、これまで想像もできなかった研究や、非現実的と考えられていた研究が可能になったケースもある。ただし、AlphaFoldの予測には限界があり、自分たちの研究に利用するには予測の信頼度が低過ぎると感じている科学者もいる。それでも、研究者たちはすさまじいペースでAlphaFoldを試している。

AlphaFoldは、創薬やタンパク質設計から複雑な生命の起源に至るまで、幅広い分野で使われているため、開発者でさえ用途の広がりについて行くのに苦労している。ディープマインド社でAlphaFoldのチームを率いるJohn Jumperは、「朝起きたらすぐにツイッターで『AlphaFold』をキーワード検索します」と言う。「かなり読み応えがあります」。

驚異的な成功

タンパク質のアミノ酸配列だけで立体構造を決定することは、生物学の最大の課題の1つである。2年に1度開催されるタンパク質構造予測精密評価「CASP」は、この技術がどこまで進んだかを評価する競技会だ。競技会にエントリーしたソフトウエアがタンパク質のアミノ酸配列から予測した立体構造は、タンパク質にX線や電子線を照射して構造を決定するX線結晶構造解析法やクライオ電子顕微鏡法などによって実験的に決定された立体構造との比較によって審査される。

AlphaFoldは2020年12月にCASP14を制し、学界に衝撃をもたらした。このときのAlphaFoldは、2018年にCASPで優勝したソフトウエアの改良版である「AlphaFold2」だ(2021年3月号「AIによるタンパク質構造予測が飛躍的に進化」参照)。旧版の予測の多くは、実験的に決定された構造の代わりになるレベルではなかったとJumperは言う。だがAlphaFold2の予測は、平均すると、経験的に得られた構造に匹敵するものだった。

当時、ディープマインド社がAlphaFold2や予測した構造を公開する時期は未定だった。そのため研究者たちは、Jumperの講演から得た情報と自分たちの知識を使って、RoseTTAFoldという独自のAIツールを開発した。

プロテオームについて分かっていること
AlphaFoldの予測により、ヒトのプロテオーム(ヒトが作る全てのタンパク質)に関して 信頼度の高い構造の割合が大幅に増加した。ヒト以外の生物種については、その割合はさらに高い。
*PDB(タンパク質データバンク)。AlphaFoldを利用してこれらの構造を計算することもできるが、既に分かっている構造に大きな寄与をすることはできない。 Credit: E. PORTA PARDO ET AL. PLOS COMPUT. BIOL. 18, E1009818 2022.

2021年7月15日、RoseTTAFoldとAlphaFold2について記載する論文2,4が発表された。論文には、専門家がこのツールの独自のバージョンを走らせるために必要な無償のオープンソースコードなどの情報も記されていた。1週間後にはディープマインド社が、AlphaFoldを使って36万5000種類以上のタンパク質の構造を予測したと発表した(「プロテオームについて分かっていること」参照)。その内訳は、ヒトをはじめ、マウスや大腸菌など広く研究されている20種の生物の「プロテオーム」(その生物が作る全タンパク質)である。同社はこれらのデータをEMBLの欧州バイオインフォマティクス研究所(EMBL-EBI;英国ケンブリッジシャー州ヒンクストン)が管理するデータベース上で公開した。データベースにはその後さらに多くの構造が登録され、2022年6月時点で100万種類に迫っている。

同社は、2022年は合計1億種類以上のタンパク質の構造を予測し、公開することを予定している。これは既知の全タンパク質の約半分に相当し、実験的に決定されてタンパク質構造データバンク(Protein Data Bank;PDB)の構造リポジトリに登録されているタンパク質の種類の数百倍に上る。

AlphaFoldは、ディープラーニングの手法で学習するニューラルネットワーク(脳の神経回路をヒントにしてデータのパターンを認識する計算アーキテクチャ)である。訓練は、PDBや他のデータベースにある、実験的に決定された数十万種類のタンパク質構造と配列を使って行われた。新しい配列を与えられたAlphaFoldは、まずはデータベースにある関連配列を探し、共進化する傾向のあるアミノ酸を特定する。こうしたアミノ酸は三次元空間の中で近い所にあるはずだ。また、既存の関連タンパク質の構造からも、新しい配列のアミノ酸ペア間の距離を推定することができる。

AlphaFoldは、この並行した推定からもたらされる手掛かりを繰り返し用いて、アミノ酸の三次元的な位置のモデルをどんどん更新していく。専門家は、AlphaFoldがここまで優れたものになったのは、このソフトウエアが機械学習研究における新しい概念を採用しているからだと考えている。中でも重要なのは、「アテンション(注意)」と呼ばれるAI機構を使って、任意の瞬間のタスクにとって、どのアミノ酸の連結が最も重要であるかを決定していることだという。

このネットワークは、関連するタンパク質配列の情報に依拠しているため、AlphaFoldの予測には限界がある。例えば、疾患を引き起こす変異などがタンパク質の立体構造に及ぼす影響を予測するようには設計されていないし、タンパク質が他のタンパク質や薬物分子などと相互作用する場合に、その構造がどう変化するかを予測するように訓練されてもいない。しかし、AlphaFoldが出力するモデルには、アミノ酸の1つ1つに、その位置の予測の信頼度スコアが付されているし、研究者たちはAlphaFoldのコードを改変して、その機能を拡張している。

ディープマインド社によると、2022年4月上旬時点で、EMBL-EBIのAlphaFoldデータベースを利用した人は40万人以上という。中には、自分のサーバーにソフトウエアをインストールしたり、クラウドベースのAlphaFoldを利用してEMBL-EBIのデータベースにない構造を予測したり、このツールの新たな使い方を考えたりしている猛者もいる。

構造を解く

AlphaFoldがタンパク質の立体構造を決定する能力は、既に生物学者たちを感嘆させている。オーフス大学(デンマーク)の構造生物学者Thomas Boesenは、「私がこれまでに見てきた限りでは、AlphaFoldはかなり信頼できると思います」と言う。このソフトウエアは、彼が所属するセンターが構造を決定したが未発表のタンパク質の立体構造を、正しく予測することができた。Boesenは、同じオーフス大学の微生物生態学者Tina Šantl-Temkivと共にAlphaFoldを利用して、氷の形成を促す細菌タンパク質の構造モデルを作成している5。このタンパク質は雲中の氷による冷却効果に寄与している可能性があるが、生物学者たちはその構造をまだ実験的に決定できていないからだ。

ストックホルム大学(スウェーデン)のタンパク質バイオインフォマティシャンであるArne Elofssonは、折り畳まれたタンパク質が単一の明確な立体構造を取る場合には、AlphaFoldの予測は最強だと言う。しかし、全てのタンパク質がそうした構造を取るわけではない。

AlphaFoldがうまく予測できない部分は、スパゲッティーが宙に浮いているような形で示されるとElofssonは言う(「正しい予測、間違った予測、不恰好な予測」参照)。このような形になるのは、少なくとも単独では決まった構造を取らない領域であることが多い。ヒトのプロテオームのうち約3分の1は決まった構造を取らず、シグナル伝達の相手分子など別の分子がある場合にのみ、明確な構造を取っているようだ。

正しい予測、間違った予測、不恰好な予測
AlphaFoldが予測する折り畳まれたタンパク質の構造は、信頼度の評価付きで表示される。それぞれのモデルと(もしあれば)実験的に決定された構造を重ね合わせることで、予測精度が明らかになる。 Credit: J. M. THORNTON ET AL. NATURE MED. 27, 1666–1669 2021.

決まった構造を取らない領域を特定するAlphaFoldの能力は「私たちの研究を大きく変えた」と話すのは、ロンドン大学がん研究所(英国)の計算生物学者Norman Daveyだ。まさにこうした領域の特性を調べているDaveyは、「何もせずとも、予測の質が瞬く間に大きく改善したのです」と言う。

AlphaFoldがEMBL-EBIデータベースに大量に登録したタンパク質の構造も、すぐに利用されるようになった。Orengoのチームは、このデータベースを検索して、実験による検証なしに新しい種類のタンパク質を突き止めている。彼らは、数百、もしかすると数千の新しいタンパク質ファミリーを発見し、タンパク質の形状や機能に関する科学者たちの知識の幅を広げている。彼らの別の研究では、海水や廃水に含まれるDNAの配列データベースを検索し、プラスチックを食べる新しい酵素を見つけようと試みている。彼らは、AlphaFoldを使って数千種類のタンパク質の構造を大まかに予測することで、プラスチック分解酵素の進化の過程をよりよく理解し、これらを改良することができればと考えている。

ハーバード大学(米国マサチューセッツ州ケンブリッジ)の進化生物学者Sergey Ovchinnikovは、AlphaFoldの能力は進化研究で特に威力を発揮するはずだと主張する。研究者は遺伝子配列を比較して、生物とその遺伝子について種を超えた関連を調べている。類縁関係の遠い遺伝子では配列が大きく変化しているため、これらを比較しても進化的近縁種を探し出せないかもしれない。しかし、タンパク質の構造は遺伝子配列ほど急速に変化しない傾向があるため、立体構造を比較することで、従来の研究では見落とされていた古い類縁関係を発見できるかもしれない。スイス連邦工科大学チューリヒ校の計算生物学者であるPedro Beltraoは、「AlphaFoldは、タンパク質の進化と生命の起源を研究するための絶好の機会を与えてくれるのです」と言う。

この可能性を検証するため、ソウル大学校(韓国)の計算生物学者Martin Steineggerらは、独自に開発したFoldseekというツールを使って、EMBL-EBIのAlphaFoldデータベースから、新型コロナウイルス感染症を引き起こすSARS-CoV-2のRNA複製酵素と類縁のタンパク質を探した6。その結果、知られていなかった古い類縁タンパク質が見つかった。それは、粘菌を含む真核生物に広く存在し、遺伝子配列のレベルでは似ていないものの、立体構造が逆転写酵素(RNAを鋳型としてDNAを合成する酵素)によく似ていた。

実験を補助する

特定のタンパク質の構造を詳細に決定したい科学者にとっては、AlphaFoldの予測は必ずしも即効性のある解決策ではないが、実験で検証や改良ができる初期近似値として役立つほか、科学者が実験データの意味を理解するための助けにもなる。例えば、X線結晶構造解析の生データはX線の回折パターンとして示される。通常、科学者がこのパターンを解釈するためには、タンパク質の構造を先に推測しておく必要がある。以前は、PDBに登録されている関連タンパク質の情報を継ぎはぎしたり、実験的な手法を用いたりすることが多かったと、ケンブリッジ大学(英国)の構造生物学者Randy Readは言う。実際、彼の研究室でも以前はこうした手法を使っていたが、AlphaFoldの予測がある今では、以前のアプローチは不要となり、現在は実験モデルにAlphaFoldをもっとうまく利用する方法を模索している。

Readや他の研究者たちは今、解析の出発点となる適切なモデルがないために何年も解釈できずにいたX線データについて、AlphaFoldを利用して結晶構造を決定している。Readの研究室の元ポスドクで、現在は分析会社SciBite(英国ケンブリッジ)で働くClaudia Millán Nebotは、主にAlphaFoldのおかげで、PDBに登録される新たなタンパク質構造がどっと増えると予想している。

瞬間的に凍結させたタンパク質の画像を撮影するクライオ電子顕微鏡法を専門とする研究室でも、同じことが起きている。ノースカロライナ大学チャペルヒル校(米国)の構造生物学者で薬理学者でもあるBryan Rothによると、薬物の標的として重要なGタンパク質共役型受容体(GPCR)というタンパク質について、他の計算ツールではうまく予測できなかった特徴を、AlphaFoldのモデルが正確に予測できた例がいくつかあるという。彼は、「AlphaFoldは、最初のモデルを作るのに非常に適していると思います。そのモデルを実験データで改良していけば、時間の節約になります」と言う。

しかしRothは、AlphaFoldの予測がそこまで正確ではないものもあると話す。彼は、研究室で構造を決定したが未発表のGPCR数十種類を使って検証した。「AlphaFoldが予測する構造は、半数はかなり良かったのですが、残りの半数は、私たちの目的にはあまり役に立ちませんでした」とRoth。AlphaFoldが高信頼度としていた予測が、実験的に決定された構造によって否定されることもあったという。また、タンパク質の構造を正しく予測できた場合も、このソフトウエアでは、タンパク質に薬物などの低分子化合物(リガンド)が結合して変化した構造のモデルを作成することはできない。そのためRothは、AlphaFoldが創薬にどれだけ役立つかは疑問だとしている。

創薬に向けた取り組みでは、数十億種類の低分子をスクリーニングして、タンパク質と結合する可能性のあるもの(つまり、有用な薬物となる可能性のあるもの)を見つけ出すドッキング計算ソフトウエアを用いることが一般的になってきている。Rothは現在、カリフォルニア大学サンフランシスコ校(米国)の医薬品化学者Brian Shoichetと共同で、この観点から、AlphaFoldの予測と実験的に決定された構造とを比較しようとしている。

Shoichetらは、AlphaFoldの予測が実験的に決定された構造とよく一致するタンパク質に限定して調べている。しかし、このようなタンパク質においても、ドッキング計算ソフトウエアが予測した「構造に結合する薬剤候補分子」は、実験的に決定された構造に対するものと、AlphaFoldが提案した構造に対するものとでは異なっていたことから、小さな相違が問題になり得ることが示唆された。Shoichetは、「新しいリガンドが見つからないということではなく、別々のリガンドが見つかっているのです」と言う。彼のチームは現在、AlphaFoldが予測した構造を使って突き止めた新薬候補を合成し、実験室でその活性を検証している。

批判的楽観論

製薬会社やバイオテクノロジー企業の研究者たちは、AlphaFoldが創薬に役立つ可能性に期待を寄せているとShoichetは言う。「個人的には批判的楽観論と呼びたいところです」。2021年11月、ディープマインド社はAlphaFoldなどのAIツールを創薬に応用することを目的とした子会社「アイソモーフィック・ラボ(Isomorphic Labs)」を設立した。ただし、その計画についてほとんど明らかにしていない。

化学シミュレーションソフトウエアも発表している創薬会社シュレーディンガー(Schrödinger;米国ニューヨーク)で治療薬開発チームを率いるKaren Akinsanyaは、自分たちは既にAlphaFoldが予測したGPCRなどのタンパク質の構造を利用して新薬候補のバーチャルスクリーニングや化合物の設計を行い、一定の成功を収めていると語る。彼女によると、実験的に決定された構造と同様、アミノ酸の側鎖に関する詳細や個々の水素原子の位置などの情報を得るためには、追加のソフトウエアが必要だという。これができれば、AlphaFoldが予測する構造は、場合によっては創薬の指針として十分であることが証明されるかもしれない。

Akinsanyaは、「このソフトは万能だと断言することはできません。つまり、ある構造について予想以上にうまくいったから、どんな構造にも使えるはずだなどとは言えません」と語る。また、AlphaFoldの予測に付されている信頼度は、その構造が後で行う薬物スクリーニングに役立つかどうかを示すものではないことも分かったという。彼女は、創薬の分野では、AlphaFoldが予測する構造が実験的に決定された構造に完全に取って代わることはないだろうと見ている。しかし、実験による構造決定を補完することで、創薬プロセスを加速する可能性はある。

2022年1月、AlphaFoldに関心を持っている創薬関係者たちは朗報を受け取った。ディープマインド社がAlphaFoldの商用利用に対する重要な制限を解除したのだ。同社は2021年7月にAlphaFoldのコードを公開した際、その重み(ニューラルネットワークを数十万のタンパク質の構造と配列で訓練した結果として得られ、これを走らせるのに必要なパラメーター)は非商用利用のみと規定していた。Akinsanyaによると、一部の業界関係者はこの点がネックとなってAlphaFoldの利用を見合わせていたため、ディープマインド社が方針を転換すると「興奮の波」が広がったという(RoseTTAFoldにも同様の制約があるが、次のバージョンは完全にオープンソース化の予定とOvchinnikovは話す)。

AIツールは、科学者がタンパク質の立体構造を決定する方法を変えるだけではない。このツールを利用して全く新しいタンパク質を作り出している研究者もいる。ワシントン大学(米国シアトル)の生化学者で、タンパク質の設計と構造予測の第一人者であるDavid Bakerは、「ディープラーニングは、私のグループのタンパク質設計方法を完全に変えようとしています」と言う。Bakerらは、計算化学者Minkyung Baekと共に、RoseTTAFoldの開発をリードしてきた。

Bakerのチームは、AlphaFoldとRoseTTAFoldに「空想」させ、新しいタンパク質を作り出している。ランダムなアミノ酸配列を入力すると、ソフトウエアがそれを最適化してニューラルネットワークがタンパク質として認識できるように、AIのコードを改変したのだ(「タンパク質を夢見る」参照)。

タンパク質を夢見る
研究者たちはディープニューラルネットワークを利用し、折り畳まれてタンパク質を作る可能性のあるアミノ酸配列を「空想」させた。彼らは「空想」されたタンパク質の一部を実際に合成し、予測と比較した。 Credit: REF. 7

2021年12月、Bakerらは「空想」で作り出した129種類のタンパク質を細菌中で発現させたところ、その約5分の1が、予測によく似た構造に折り畳まれていたと報告した7。Bakerは、「これらのネットワークを利用してタンパク質を設計できることを、初めて実証できたのです」と説明する。彼のチームは現在、この方法を用いて、特定の化学反応を触媒するような有用なタンパク質の設計を試みている。目的の機能を担うアミノ酸を特定し、あとはAIに「空想」させるのだ。

AlphaFoldを使いこなす

ディープマインド社がAlphaFoldのコードを公開したとき、Ovchinnikovはこのツールの仕組みをもっとよく理解したいと考えた。彼はそれから数日のうちに、Steineggerや同僚の計算生物学者たちと共にColabFoldというウェブサイトを立ち上げた。このサイトでAlphaFoldやRoseTTAFoldにタンパク質のアミノ酸配列を入力すれば、誰でも立体構造の予測結果が得られる。Ovchinnikovが当初思い描いていたのは、彼や他の科学者が、ColabFoldを利用して標的タンパク質配列と進化的に近縁なタンパク質に関する「偽の情報」を供給し、AlphaFoldの予想を間違わせることだった。そうすれば、ネットワークがここまで見事に構造を予測できるようになった仕組みが分かるかもしれないと考えていた。

実際には、利用者の多くはタンパク質の構造を知ることしか求めていなかった。一方で、AlphaFoldへの入力を改変して新しい用途を試すためのプラットフォームとしてColabFoldを利用する研究者たちもいた。Jumperは、「これほど多様なハックがあるとは予想していませんでした」と言う。中でも人気なのは、相互作用する(そしてしばしば絡まり合った)複数のペプチド鎖からなるタンパク質複合体にもこのツールを使えるようにするハックである。細胞内の多くのタンパク質は核膜孔複合体と同様に、複数のサブユニットが複合体を形成することで機能を果たす。

AlphaFoldは単一のペプチド鎖の立体構造を予測するように設計されており、訓練に使われたタンパク質も全てそうしたものだった。しかし、このネットワークは、タンパク質サブユニットが折り畳まれて複合体を形成する仕組みについて、何かを学んだようである。AlphaFoldのコードが公開されてから数日後、東京大学のタンパク質バイオインフォマティシャン、森脇由隆(もりわき・よしたか)が、2つのタンパク質配列を長いリンカー配列でつなぐと、AlphaFoldは両者の相互作用を正確に予測できるとツイートした。Baekはすぐに、RoseTTAFoldの開発で得た、複合体を予測するための別のハックをシェアした。

ColabFoldにはその後、タンパク質複合体の構造を予測する機能が組み込まれた。そして2021年10月には、ディープマインド社がAlphaFold-Multimerというアップデート版をリリースした8。これは以前のバージョンとは異なり、タンパク質複合体に関して特別に訓練されていた。Jumperのチームは、PDBに登録されている数千種類のタンパク質複合体にこれを適用し、既知のタンパク質–タンパク質相互作用の約70%を予測できることを明らかにした。

これらのツールは早くも、相互作用するタンパク質を探す研究者たちの役に立っている。Elofssonのチームは、実験データに基づいて相互作用が予想される6万5000組のヒトタンパク質の構造を、AlphaFoldで予測した9。Bakerのチームは、AlphaFoldとRoseTTAFoldを用いて、酵母がコードするほぼ全てのタンパク質の間の相互作用をモデル化し、未発見の複合体を100種類以上突き止めた10。ただしElofssonは、このようなスクリーニングは出発点にすぎないと考えている。ある種のタンパク質ペア、特に、安定しているものの予測は得意だが、短時間の相互作用は特定が難しいからだ。

核膜孔複合体の研究は、予測と実験データが合わさるとどれほど有用かを示した好例だとKosinskiは言う。「ただし、30種類のタンパク質をAlphaFoldに一気に放り込めば構造が出てくる、という話ではありません」。予測されたタンパク質の構造を組み合わせるため、研究チームはクライオ電子顕微鏡法の1種、クライオ電子線トモグラフィーを使って撮影した核膜孔複合体の三次元画像を利用した(2022年1月号「タンパク質を本来の場所で観察する」参照)。ある例では、タンパク質の近接性を測定する実験により、核膜孔複合体の2つの構成要素の間に意外な相互作用があることが判明し、AlphaFoldのモデルによって確認されている。

Kosinskiは、このチームが作成した核膜孔複合体のマップを出発点として、核膜孔複合体が機能する仕組みや、疾患の際に機能不全に陥る過程を調べる実験やシミュレーションを行うことができると考えている。

AlphaFoldの限界

科学者たちは、AlphaFoldがもたらした進歩の大きさを考えると、その限界を明確にすることが重要だと言う。タンパク質の構造予測を専門としない研究者もこのツールを利用していることを思えば、なおさらである。

早期乳がんと関連する変異など、タンパク質の本来の構造を破壊するさまざまな変異にAlphaFoldを適用する試みから、このソフトウエアではタンパク質の新しい変異が引き起こす結果の予測はできないことが確認された。進化的に関連する配列が存在せず、検討することができないのだ11

AlphaFoldのチームは現在、ニューラルネットワークが新しい変異を扱えるようになるためにはどう設計すればよいか、検討中だ。それには、折り畳まれていない状態のタンパク質が折り畳まれた状態へとどのように移行するかを、ネットワークがより正確に予測できる必要があるとJumperは考えている。コロンビア大学(米国ニューヨーク)の計算生物学者であるMohammed AlQuraishiは、「タンパク質の物理的性質について学んだことだけを頼りに構造を予測するソフトウエアが必要かもしれません」と言う。「私たちが興味を持っていることの1つは、進化的な情報を利用することなく、単一の配列から予測を行うことです。これは未解決の重要問題です」。

複数の構造を予測できるようにAlphaFoldを改造している研究者もいるが、もともとは1つの構造だけを予測する設計だ。しかし、多くのタンパク質は複数のコンホメーション(立体配座)を取り、そのことがタンパク質の機能に重要な意味を持っている場合がある。Schueler-Furmanは、「AlphaFoldは、異なるコンホメーションにあるときに異なる構造を取るようなタンパク質は扱えません」と言う。また、AlphaFoldが予測するのはタンパク質が単独で存在しているときの構造だが、多くのタンパク質はリガンド(DNAやRNA、脂質分子、ミネラルなど)と共に機能する。Elofssonは、「私たちの予測にはまだリガンドがありません。タンパク質以外の全てがありません」と言う。

AlQuraishiは、こうした次世代ニューラルネットワークの開発は困難な挑戦になると予想する。実験的に決定された構造データで訓練されたAlphaFoldは、数十年にわたるタンパク質研究に依存している。タンパク質のダイナミクスや、タンパク質が相互作用し得る数兆種類の低分子の形を捉えるのに必要な大量のデータは、現時点では利用できない。PDBにはタンパク質が他の分子と相互作用しているときの構造も登録されているが、これは化学的多様性のほんの一端でしかないとJumperは言う。

AlphaFoldや関連するAIツールの最適な使い方を見極めるにはまだ時間がかかると研究者たちはみている。AlQuraishiは、テレビ放送の黎明期に似た状況だと考えている。当時はニュースを読み上げるだけの番組があったという。「タンパク質の構造についても、私たちが考えたこともない新しい応用方法が見つかることでしょう」。

AlphaFold革命の行き着く先は誰にも分からない。Bakerは、「状況は急速に変化しています。1年後でさえ、こうしたツールを利用した驚異的なブレークスルーが起こるでしょう」。EMBL-EBIの計算生物学者Janet Thorntonは、AlphaFoldがもたらした最大の影響の1つは、生物学者に計算的・理論的アプローチからの知見を受け入れさせたことではないかと考えている。「私にとって、革命とは人々の考え方に起こるものです」。

AlphaFoldによる革命は、Kosinskiに大きな夢を抱かせた。彼は、AlphaFoldをヒントにしたツールを駆使して、個々のタンパク質やタンパク質複合体だけでなく、細胞小器官や細胞全体のレベルからタンパク質分子のレベルまで、全てをモデル化したいと考えている。「これから数十年がかりで追い求める夢です」。

翻訳:三枝小夜子

Nature ダイジェスト Vol. 19 No. 7

DOI: 10.1038/ndigest.2022.220724

原文

What's next for AlphaFold and the AI protein-folding revolution
  • Nature (2022-04-14) | DOI: 10.1038/d41586-022-00997-5
  • Ewen Callaway
  • Ewen Callawayはロンドン在住のNature のライター。

参考文献

  1. Kosinski, J. et al. Science 5, 363–365 (2016).
  2. Jumper, J. et al. Nature 596, 583–589 (2021).
  3. Mosalaganti, S. et al. Preprint at bioRxiv https://doi.org/10.1101/2021.10.26.465776 (2021).
  4. Baek, M. et al. Science 373, 871–876 (2021).
  5. Hartmann, S. et al. Preprint at bioRxiv https://doi.org/10.1101/2022.01.21.477219 (2022).
  6. van Kempen, M. et al. Preprint at bioRxiv https://doi.org/10.1101/2022.02.07.479398 (2022).
  7. Anishchenko, I. et al. Nature 600, 547–552 (2021).
  8. Evans, R. et al. Preprint at bioRxiv https://doi.org/10.1101/2021.10.04.463034 (2021).
  9. Bryant, P., Pozzati, G. & Elofsson, A. Nature Commun. 13, 1265 (2022).
  10. Humphreys, I. R. et al. Science 374, eabm4805 (2021).
  11. Buel, G. R. & Walters, K. J. Nature Struct. Mol. Biol. 29, 1–2 (2022).