News in Focus

ディープマインド社のAIがヒトのほぼ全てのタンパク質の構造を予測

Nature ダイジェスト Vol. 18 No. 10 | doi : 10.1038/ndigest.2021.211008

原文:Nature (2021-07-22) | doi: 10.1038/d41586-021-02025-4 | Deepmind’s AI predicts structures for a vast trove of proteins

Ewen Callaway

ニューラルネットワーク「AlphaFold」が、35万種類以上のタンパク質の構造を収録した革新的なデータベースを生成した。

ヒトのメディエーター複合体(図)は、長い間、構造生物学者にとって最も理解しにくい多タンパク質複合体の1つだった。 | 拡大する

Yuan He

ヒトのゲノムには2万種類以上のタンパク質を作るための指示がコードされている。しかし、これらのタンパク質のうち、立体構造が実験的に決定されているものは全体の約3分の1にすぎず、そうした構造の多くは部分的にしか決定されていない。

今回、グーグルの親会社であるアルファベット社の傘下にあるグーグル・ディープマインド社(英国ロンドン)が開発した革新的な人工知能(AI)ツール「AlphaFold」が、ヒトのプロテオーム(ある生物が発現しているタンパク質の総体)のほぼ全体の構造を予測した。AlphaFoldはまた、ヒトだけではなく、マウスやトウモロコシからマラリア原虫まで、ヒト以外の20種の生物のプロテオームの大半の構造も予測することができた(「予測された構造の数と実際のタンパク質の数」参照)。

予測された構造の数と実際のタンパク質の数
AlphaFoldは、ヒトおよび20種のモデル生物の全てのタンパク質の構造を予測することを目標としている。下の図は、その成果の一部を示したものである。いくつかの生物でプロテオームの大きさよりも予測された構造の数の方が多くなっているのは、一部のタンパク質で複数の構造が予測されているからである。ヒトについては、既知のタンパク質の98.5%の構造が予測されている。 | 拡大する

SOURCE: EMBL–EBI AND HTTPS://SWISSMODEL.EXPASY.ORG/REPOSITORY

今回公開されたデータベースには、こうして予測されたタンパク質の構造が35万種類以上登録されているが、予測の精度にはばらつきがある。それでも研究者たちは、この情報資源は生命科学に革命を起こす可能性があると期待している。

ロンドン大学ユニバーシティカレッジ(UCL;英国)の計算生物学者Christine Orengoは、「まさに革新的なツールだと思います。タンパク質の構造が分かれば、その機構を知ることができるからです」と言う。

しかし研究者たちは、この大量のデータは、始まりであって終わりではないと強調する。彼らは今後、この予測を検証していきたいと考えているが、それ以上に重要なのが、AlphaFoldの予測を、これまでは不可能だった実験に適用することだ。

コンペで優勝した予測法

AlphaFoldは、2020年12月に開催された第14回タンパク質構造予測精密評価(CASP14)で優勝したプログラムである。ディープマインド社は、AlphaFoldのコードの一般公開の準備をする過程で、コードを改良してプログラムをより効率よく実行できるようにした。以前のバージョンでは1つのタンパク質の予測に何日もかかることがあったが、最新のバージョンでは、構造の計算が数分から数時間でできるようになっている。

ディープマインド社のチームは、この効率化した新しいバージョンを用いて、ヒトと20種のモデル生物のゲノムにコードされている既知のタンパク質のほとんど全ての構造の予測に乗り出した。予測された構造は、欧州分子生物学研究所の欧州バイオインフォマティクス研究所(EMBL-EBI;英国ヒンクストン)が管理するデータベースで利用できる。

AlphaFoldは、ヒトについては既知のタンパク質の98.5%、他の生物についても同程度の割合のタンパク質の構造を予測しただけでなく、それぞれの予測の信頼度も示している。ディープマインド社のサイエンスエンジニアで、Nature に掲載されたヒトのプロテオームの予測に関する論文(K. Tunyasuvunakool et al. Nature https://doi.org/gk9kp7; 2021)の筆頭著者であるKathryn Tunyasuvunakoolは、その理由を「実験をする人や生物学者に、私たちの予測のどの部分を信頼してもらってよいのか、はっきり示したいからです」と説明する。Tunyasuvunakoolによると、ヒトのプロテオームでは、AlphaFoldによる個々のアミノ酸残基の位置の予測の58%は、タンパク質の折りたたみの形について確信できるほど高い精度であったという。さらに、これらの一部(全体の36%)については、創薬に役立つ原子レベルの特徴を詳細に解明できるほど、非常に高い精度で位置を予測できたという。この中には酵素の活性部位などが含まれる。

精度がこれほど高くない予測であっても、何らかのヒントを与えてくれる可能性がある。生物学者たちは、ヒトや他の真核生物(核を持つ細胞からなる生物)のタンパク質の多くは決まった構造をとらない領域を持っていて、こうした領域は他の分子と協調することで初めて決まった構造をとるようになると考えている。AlphaFoldプロジェクトを率いるJohn Jumperは、「多くのタンパク質は溶液中でくねくねと動いていて、決まった構造をとっていません」と語る。ディープマインド社の科学向けAI部門の責任者であるPushmeet Kohliは、AlphaFoldが信頼度が低いとした領域のいくつかは、生物学者が決まった構造をとらないと考えている領域に対応していると言う。

膨大な量のデータ

EMBL-EBIの構造バイオインフォマティシャンであるSameer Velankarは、2021年7月に登録された約36万5000件の構造予測は、年末には1億3000万件まで増えるだろうと言う。これは、既知の全てのタンパク質の半数近くに当たる数だ。

研究者たちは既に、X線結晶構造解析や低温電子顕微鏡法で得られた実験データの意味を解き明かすのに、AlphaFoldやその関連ツールを役立てている。コロラド大学ボールダー校(米国)の生化学者であるMarcelo Sousaは、AlphaFoldを使って、コリスチンという抗生物質に対する耐性を担う細菌のタンパク質のX線データから、構造モデルを作成した。実験に基づく構造モデルの中でAlphaFoldによる予測と異なっていた部分の多くは、信頼度が低いとされていた領域だった。Sousaは、これはAlphaFoldが自身の限界を正確に予測していることを示唆するものだと言う。

初期のバージョンのAlphaFoldについてディープマインド社に助言をしていたUCLの計算生物学者David Jonesは、AlphaFoldの成果に感銘を受けている。しかし彼は、AlphaFoldが予測した構造モデルの多くは、学者たちが開発した初期のソフトウエアでも生成できたはずだと言う。「ほとんどのタンパク質について、科学者がやってみたいと思うことをするには、従来のソフトウエアの予測で十分かもしれません」。

しかし、コロンビア大学(米国ニューヨーク州)でタンパク質構造予測の研究をしている計算生物学者のMohammed AlQuraishiは、これほど多くのタンパク質の構造が利用可能になれば、生物学の「パラダイムシフト」が起こるはずだと言う。構造生物学分野では、タンパク質の構造をこの規模で正確に予測することに多くの時間とエネルギーを費やしてきたため、こうした情報資源の利用法についてはまだ十分に検討されていない。「私たちがタンパク質の配列に基づいて行っていることの全てを、タンパク質の構造に基づいて行えるようになったのです」と彼は言う。

(翻訳:三枝小夜子)

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度