遺伝子調節の神託
Nature ダイジェスト Vol. 19 No. 6 | doi : 10.1038/ndigest.2022.220648
原文:Nature (2022-03-17) | doi: 10.1038/d41586-022-00384-0 | AI predicts the effectiveness and evolution of gene promoter sequences
生物学研究の長年の目標は、DNA塩基配列から遺伝子発現を予測できるようになることだ。人工知能の1つのタイプであるニューラルネットワークを、ハイスループット実験と組み合わせることで、この目標に一歩近づいた。
STEVE GSCHMEISSNER/SCIENCE PHOTO LIBRARY/Science Photo Library/Getty
遺伝子発現は、特定の環境での細菌の生存から人体の解剖学的構造や生理機能に至るまで、生命のあらゆる側面に影響を及ぼす。発現を調節するDNA塩基配列から、遺伝子がどの程度強く発現するかを正確に予測できれば、生物学研究の方法が一変するだろう。しかし、遺伝子発現を調節する生化学的機構は途方もなく複雑であり、50年以上にわたる生物学者たちの最大限の努力にもかかわらず、目標は達成されていない。このほど、カギとなる2つの技術を利用し、酵母(Saccharomyces cerevisiae)において遺伝子発現を正確に予測することに成功したと、マサチューセッツ工科大学およびブロード研究所のAviv Regev(現在はジェネンテック社に所属)らの研究チームが、Nature 2022年3月17日号455ページで報告した1。
研究チームはまず、酵母細胞の大きな集団の全ての細胞で、黄色蛍光タンパク質(YFP)をコードする遺伝子の発現を測定する技術を利用した2。この集団では、それぞれの細胞は異なる調節DNA塩基配列(プロモーターと呼ばれる)を持っている。プロモーターは小さな環状DNA上のyfp遺伝子の近くに位置し、その近さ故にyfp遺伝子の発現を促進できる。具体的には、研究チームは、それぞれ80塩基対長の3000万個を超える異なるプロモーターを使用し、これらのプロモーターの1つを含む各細胞がどのくらいの量のYFPを生成するかを調べた。
次に研究チームが利用した技術は、畳み込みニューラルネットワーク(以降、畳み込みモデル)と呼ばれる人工知能(AI)だ。研究チームは、得られたYFP発現データを畳み込みモデルにフィードし、データからyfp遺伝子の発現を予測できるよう訓練した。そして、このモデルによる遺伝子発現の予測能力を、非常に大規模なスケールで検証した(図1)。
a Regevらの研究チーム1は、3000万個のプロモーターのライブラリーを作成し、酵母細胞で、それぞれのプロモーターによる黄色蛍光タンパク質(YFP)をコードする遺伝子の発現量を測定した。
b 次に、これらのデータを使用して畳み込みニューラルネットワーク(畳み込みモデル)を訓練し、さまざまなプロモーターが遺伝子発現をどの程度促進するかを予測した。
c 続いて、畳み込みモデルの予測能力を検証した。研究チームは数千個のプロモーターを設計し(この図では1つのみに簡略)、各プロモーターが誘導する遺伝子発現の量を畳み込みモデルが非常に正確に予測できることを示した。 | 拡大する
例えば、研究チームは、訓練に使用されていない数千ものプロモーターの塩基配列を合成してそれらが遺伝子発現を促す能力を測定し、畳み込みモデルによってそれぞれのプロモーターの遺伝子発現促進能を非常に正確に予測できることを示した。さらに、ランダムなプロモーターを畳み込みモデルに提示し、塩基配列から遺伝子発現を予測するモデルの能力を使って、YFP発現を極端にする(非常に高発現または非常に低発現する)と予測される塩基配列にプロモーターを変換するために、10世代のコンピューターシミュレーションを行った。そして、この結果から極端な発現を誘導すると予測されたプロモーターを500個合成し、実験によりYFP発現を誘導する能力を測定した。すると、シミュレーションで予測された塩基配列は、実際に非常に高い発現と非常に低い発現を誘導した。これと他の検証実験の結果から、遺伝子発現を非常に正確に予測できる、まさに「神託」と呼べる手法を研究チームが考案したことが示された。
この予測モデルは、遺伝子発現の進化のさまざまな側面を解明することにも役立つ。例えば研究チームは、ほとんどのプロモーターでは、非常に高いまたは非常に低い発現を誘導する能力に進化させるには3つか4つの変異で十分であることを計算上予測し、それを実験で検証した。研究チームはまた、酵母遺伝子の約70%が自身の発現を安定化させる選択(発現に大きな変化を引き起こさない変異を選好する)の影響下にあることを示している。さらに、こうした安定化選択の影響下にある遺伝子は、調節DNA変異に対してより強い抵抗性を持つことも示している。つまり、それらのプロモーターの変異が遺伝子発現を変化させる程度は低いということだ。
この研究はいくつかの理由で重要だ。まず、特定の発現レベルを持つ遺伝子を設計するのに役立つ。次に、遺伝子調節の進化の多くの側面を明らかにするのを助ける可能性がある。そして、とりわけ注目すべきは、生物学で過去数年間に使用されたディープラーニングの他のアプリケーション(タンパク質の折り畳みを予測するツール3など)と同じく、この予測モデルによっても、1つの研究チームだけで取り組んでも太刀打ちできない、より幅広い疑問に対する答えを得られるということだ。
とはいえ、予測には限界がある。第一に、変化させることができるのはプロモーターのみだ。プロモーターは、遺伝子発現に影響を与える可能性のある、いくつかのタイプの配列の中の1つにすぎない。また、遺伝子発現に影響を与える可能性のあるタンパク質コード領域など、周囲のDNAの変化による影響も考慮されていない。第二に、これは酵母のために開発されたものである。酵母では、遺伝子調節はヒトよりもはるかに単純だ。例えば、酵母の調節DNAは通常、調節される遺伝子の数百塩基対内に存在するが、動物の調節DNAは数百万塩基対も離れた場所に位置する場合もある。そのため、研究チームのアプローチをより複雑な遺伝子調節に拡大適用できるかどうかは不明だ。DNAの4つのヌクレオチドで形成できる80塩基長の鎖の候補は480個だが、今回の訓練に使用された3000万個の配列は、そのごく一部(約2×10−41)にすぎない。にもかかわらず、このアプローチは非常に成功しており、慎重な楽観論の根拠となっている。従って、配列空間のスパースサンプリング(まばらな試料抽出)は、このアプローチにとって致命的な障害ではないのかもしれない。
最後に、神話の神託と同じく、このモデルは、予測はするが説明はしない。プロモーターが遺伝子の高発現や低発現を誘導する理由や、どの転写因子がプロモーターに結合するのか、それらがどのように相互作用するのかは分からない。言い換えれば、遺伝子発現の調節論理の解明にはほとんど役立たない。この限界を克服するには、はるかに多くの研究が必要だ2,4,5。しかし、長年にわたってこの問題の解決になかなか手が届かなかったことを考えると、遺伝子発現を予測する能力だけでも生物学者たちが歓迎するであろうということは、神のお告げがなくとも容易に想像できる。
(翻訳:古川奈々子)
Andreas Wagnerは、チューリッヒ大学(スイス)および ステレンボッシュ大学(南アフリカ共和国)に所属。
参考文献
- Vaishnav, E. D. et al. Nature 603, 455–463 (2022).
- de Boer, C. G. et al. Nature Biotechnol. 38, 56–65 (2020).
- Jumper, J. et al. Nature 596, 583–589 (2021).
- Zhou, J. & Troyanskaya, O. G. Nature Methods 12, 931–934 (2015).
- Alipanahi, B., Delong, A., Weirauch, M. T. & Frey, B. J. Nature Biotechnol. 33, 831–838 (2015).