ヒトゲノムを解明する能力が 一段と向上
Nature ダイジェスト Vol. 17 No. 8 | doi : 10.1038/ndigest.2020.200833
原文:Nature (2020-05-28) | doi: 10.1038/d41586-020-01485-4 | Thousands of human sequences provide deep insight into single genomes
ゲノム塩基配列を解読および解析する大規模なプロジェクトで、ヒトの遺伝的多様性を解明するためのこれまでで最も包括的なデータセットとツールが得られた。この情報資源はあらゆる分野の生物学者にとって非常に有益である。
Boris SV/Moment/Getty
遺伝暗号の個人差はヒトの発生・発育や健康にどのような意味を持つのだろうか。研究者はこの問題の解決に当たり、いくつもの壁に阻まれている。第一に、ヒトゲノムには低頻度のバリアント(集団内に存在する変異)が多数あるため1、遺伝的多様性を解明するには膨大な数の塩基配列を解析する必要がある。こうしたバリアントの大半は影響を及ぼさず、遺伝病の原因になるものはごくわずかである。第二に、遺伝的多様性について解明されたことの大部分は、一塩基バリアント(SNV)の研究から得られたものだが、50塩基以上の長さにわたる構造バリアントは、生理的形質に対してSNVよりも大きい影響を及ぼす場合があり、疾患の主要な原因となる2。第三に、タンパク質コード塩基配列ではない領域の多様性については、現在のところ解明が進んでいない。gnomAD(Genome Aggregation Database)コンソーシアムは、これらの情報の空白を埋めるプロジェクトに取り組み、その成果をNature 2020年5月28日号に4本の論文(434、444、452、459ページ)として発表した3–6。
gnomADプロジェクトは、ヒトゲノム研究の革新的なプロジェクト、ExAC(Exome Aggregation Consortium)7を受け継いだものだ。ExACプロジェクトでは、6万人以上のゲノムのタンパク質コード領域(エキソームと呼ばれる)に存在する遺伝的多様性のカタログが作成された(図1)。ExACは、多様な複数のプロジェクトに由来するデータを共通の処理経路で再解析する、調和的解析やデータ共有のための新しい基準を設けた。ExACは2016年に成果が発表されたが、そのかなり前からデータの利用が可能になっており、研究者や医師、遺伝カウンセラーが遺伝病患者のゲノムについてどう判断するかにも大きな影響を与えている。
a 2016年にExAC(Exome Aggregation Consortium)が、ヒトゲノムのタンパク質コード塩基配列(エキソーム)に存在する、個人間で1個の塩基が異なる場合のある部位のカタログを作成した7。このデータベースは6万708人に由来するエキソームからなっていた。
b ExACの後継データベースであるgnomAD(Genome Aggregation Database)には、1万5708例の全ゲノム塩基配列と12万5748例のエキソームが含まれている3–6。gnomADコンソーシアムは、ゲノム全体の一塩基バリアント(SNV)だけでなく、50塩基以上の長さにわたるより複雑な構造バリアントのカタログも作成した。ここにはDNAの欠失や逆位、重複などが含まれる。 | 拡大する
今回の4本の論文のうち、まずブロード研究所(米国マサチューセッツ州ケンブリッジ)およびマサチューセッツ総合病院(米国ボストン)のKonrad J. Karczewskiらによる1本目の論文(434ページ)では、gnomADコンソーシアムが12万5748例のエキソームと1万5708例の全ゲノムを収集したことが記述されている3。全ゲノム塩基配列解読へと進めたこの戦略は特に刺激的だ。なぜなら、ゲノム全体に含まれる非コード塩基配列の解析で、構造の多様性と、遺伝子発現を調節するDNA塩基配列の多様性の両方に関する情報が得られるからだ。これらの情報は、同時掲載の他の3本の論文に記載されている。gnomADの情報資源には、アジア系やアフリカ系など多様な集団に由来する塩基配列が含まれている。ただし、Karczewskiらが述べているように、ヒトの多様性の全容を把握したり、もっと集団に特異的な多様性を捉えたりするには、さらに多様な集団に由来するゲノム情報資源が必要である。
Karczewskiらは続いて、データセットにあるタンパク質コード領域内のバリアントの解析を進めた。ExACのグループが開発した測定基準を土台とし、遺伝子がそのコードするタンパク質の正常な機能を妨げると予測されるバリアントを「許容」できるかどうかを評価した。すなわち、これらの「予測される機能喪失(pLoF)」バリアントが、生理的特性にほとんど影響を与えない(許容される)のか、それとも、深刻な健康問題や死亡を引き起こす(許容されない)のかどうかを調べた。機能喪失(LoF)に対して不許容な遺伝子は、生存に必須であったり、変異して遺伝病の原因になったりする可能性があるため、この種の解析は有用である。
ExACの測定基準は、1つの集団内で1個の遺伝子にpLoFバリアントがどれだけ見られるかを調べ、進化の過程でゲノム内に変異が生じる率から予測される数と比較して評価するというものだ。ただし、pLoFバリアントは非常にまれなため、6万例のエキソームでは、調べた遺伝子の全て(特に小さい遺伝子)についてpLoFに不許容かどうかを明確に判定するには不十分だった。従って、このデータは任意の遺伝子がpLoFを許容する可能性という形で表現された。
それに対してgnomADでは、コホートサイズが大きくなったため、LoFに対する遺伝子の許容性をより直接的に測定できる。Karczewskiらは、予測上のバリアントと比較評価した実際に含まれているpLoFバリアントとの頻度によって、遺伝子を10のグループに振り分け、pLoFバリアントに対する許容性の分布図を作成した。gnomAD解析においては、遺伝子の長さはサンプルサイズが大きいほど問題でなくなるが、それでもKarczewskiらは、pLoFバリアントがほとんどないと推定された遺伝子の30%について、pLoFバリアントの頻度を確実に評価することができなかった。
こうした限界はあるものの、Karczewskiらは自分たちの手法を用いて、疾患の遺伝学に関する新たな手掛かりを得ている。例えば、知的障害や自閉スペクトラム症のある人々では、LoFに不許容な遺伝子に存在するまれなバリアントが、これらの障害がない人々よりも高頻度で見つかった。こうしたデータは、これらの形質の基盤にある複雑な遺伝的構造の解明に役立つことだろう。
次に452ページの論文では、ブロード研究所、マサチューセッツ総合病院およびハーバード大学医学系大学院(米国マサチューセッツ州ボストン)のBeryl B. Cummingsらが、pLoFに不許容と見られる遺伝子が一見ほとんど影響のないこれらのバリアントを保有している場合がある理由を調べている4。遺伝子は異なるやり方で転写されることがあり、一部のタンパク質コード領域(エキソン)は限られたやり方で、つまり選択的に発現する。Cummingsらは、ある個人の1つの「不許容」な遺伝子に1つのpLoFバリアントがある場合、そのバリアントは、この限定的な発現を示すエキソン内に存在することが多く、従ってその影響も限定的となることを明らかにした。
一方459ページの論文では、ブロード研究所、マサチューセッツ総合病院およびハーバード大学医学系大学院のEric Vallabh Minikelらが、今回のpLoFデータベースにより薬剤の遺伝的標的を特定する能力がどのくらい向上するかを評価している5。創薬においては、ある任意の遺伝子内にpLoFバリアントが2つある人を見つけ出すことが望ましい。こうした人で特定の形質に1つの変化が見られるなら、その遺伝子は格好の薬剤標的となる可能性があるという証拠になる8。Minikelらは、pLoFバリアントを特定する場合に多くのエラーがまだ存在することや、pLoFバリアントを特定する際には品質管理が必要なことを示した。また、同じ遺伝子内に2個のpLoFバリアントがある人の事例はかなりまれであるため、大半の遺伝子にpLoFバリアントが存在するという確実な証拠を集めるには、gnomADの約1000倍の大きさのコホートが必要になることも示した。
最後にgnomADプロジェクトの最も画期的な点の1つは、ブロード研究所、マサチューセッツ総合病院およびハーバード大学医学系大学院のRyan L. Collinsらの論文(444ページ)6にあるように、構造バリアントのカタログを作成したことだ。リード(読み取る塩基配列単位)の長い塩基配列解読技術を使って構造バリアントのカタログを作るという優れた取り組みは、すでにいくつかある9。しかし、費用がかかったり、この方法のための標準化された解析処理経路がなかったりしたせいで、サンプルサイズが小さかった(ただし私はこの状況が近いうちに改善されると予想している)。一方、短いリードで構造バリアントを見つけ出すことは技術的に困難である。なぜなら、構造バリアントは通常の短いリードよりも長く大きい場合が多いからだ。また、構造バリアントはさまざまな変異機構によって生じ、DNAの重複、欠失、逆位など各種のバリアントができて、それぞれゲノム内に異なる足跡を残す。このため、短いリードから構造バリアントを見つけ出すのに多くのツールが開発されたが、解析の「標準的」処理経路は未開発だった。
Collinsらは、この問題を打開するため、数千例のゲノムを協調的に解析できる処理経路を構築した。これにより、集団規模で短いリード塩基配列から構造バリアントを検出するための「業界基準」が実現できた。Collinsらは、高品質の構造バリアント30万例以上(従来の解析の2倍以上の数)からなるカタログを作成した。次に彼らは、生理的形質に対する構造バリアントの関与の評価に取り組んだ。この解析で、遺伝子発現を制御する非コード塩基配列の中の構造バリアントに対して自然選択がかかっているという証拠が、いくつか明らかになった。当然のことながら、構造バリアントに対する選択はタンパク質コード領域内の方が強かった。この結果は、コード領域内よりも非コード領域内の多様性の方がより多く許容されることや、非コード領域内の多様性を確実に調べようとするなら、さらに大きいコホート(または他の手法)が必要なことを示唆している。Collinsらは、構造バリアントがタンパク質短縮事象の約4分の1を占めることも見つけた。
個々人のゲノムを読み解くためには、構造バリアントの通常の解析とSNVや遺伝子発現の解析との統合が不可欠だろう。Collinsらの研究は、この方向に重要な一歩を踏み出したものだ。また、gnomADの情報資源は、他の研究者がこの道筋を歩み続けるための手立てを提供してくれる。
これらの論文で繰り返し登場する興味深いテーマの1つは、コホートのサイズは得られたにもかかわらず、さまざまな解析に必要な「数値」が得られていないということだ。もちろん、より大規模なコホートの塩基配列解読は継続すべきである。しかし、このやり方だけでは、ヒトの遺伝学的特性と形質の間の関係性を細胞レベルと生体レベルの両方で完全に解明することはできないだろう。我々に今必要なのは、遺伝的多様性をヒト細胞内にプログラムする拡張性のある手法と、この多様性の生理的影響を直接精査できる特徴的でモニター可能な細胞レベルの形質である。こうした介入型の生物学研究によって集団遺伝学が大幅に補強され、ヒト生物学の解明が大きく進むだろう。
gnomADコンソーシアムはすでに研究データを公開している。このプロジェクトが科学にもたらす影響は、Nature掲載の4本の論文だけでなくNature姉妹誌に掲載された数本の論文(go.nature.com/2zgfxr2)も含めた、一連の成果をはるかに超えるだろう。そして、gnomADの情報資源は、前身のExACと同様、個々人のゲノムの解釈の仕方を変えるだろう。gnomADコンソーシアムの研究成果によって、ヒトの多様性に関する情報がこれまでどれほど多く見落とされてきたかが明らかになり、ヒトゲノムを集団と個人の両レベルでさらに深く理解するのを助ける手立てが得られた。次に一体何が来るのか、この目で見るのが楽しみで仕方がない。
(翻訳:船田晶子)
Deanna M. Churchは、インスクリプタ社(米国コロラド州ボールダー)に所属。
参考文献
- Auton, A. et al. Nature 526, 68–74 (2015).
- Chiang, C. et al. Nature Genet. 49, 692–699 (2017).
- Karczewski, K. J. et al. Nature 581, 434–443 (2020).
- Cummings, B. B. et al. Nature 581, 452–458 (2020).
- Minikel, E. V. et al. Nature 581, 459–464 (2020).
- Collins, R. L. et al. Nature 581, 444–451 (2020).
- Lek, M. et al. Nature 536, 285–291 (2016).
- Plenge, R. M., Scolnick, E. M. & Altshuler, D. Nature Rev. Drug Discov. 12, 581–594 (2013).
- Chaisson, M. J. P. et al. Nature Commun. 10, 1784 (2019).