国際的ながんゲノム解析プロジェクトの大きな成果
Credit: Nicola Ferrari/iStock / Getty Images Plus/Getty
2001年にヒトゲノム塩基配列が初めて解読されると、がん研究者らはすぐに、腫瘍ゲノムの包括的な特徴解析という大きな目標を掲げた。その後、塩基配列の解読技術や解析ツールの進歩のおかげで、この研究領域は大いに成長し繁栄している。Nature 2020年2月6日号では、がん種横断的全ゲノム解析(PCAWG)コンソーシアムが、6本の論文で、これまでで最も包括的で大掛かりながんゲノム・メタ解析の結果を報告している。がんゲノムのタンパク質コード領域に主に焦点を合わせた従来の取り組みとは異なり、PCAWGは全ゲノムを解析している。それぞれの論文(82、94、102、112、122、129ページ)1-6は、がんの遺伝学の重要な個々の側面を詳細に調べており、総合すると、これらの知見はがんの遺伝学的な複雑さを完全に解明する上で極めて重要なものとなるだろう。
これらの解析結果がもたらす影響を論じる前に、まず、今回のPCAWGの試みを支えた膨大な量のデータと複雑な組織体制に触れておく必要がある。このプロジェクトには、4つの大陸をまたぐ学際的な研究グループが関わっており、参加した研究者の所属機関は744カ所に上る。解析に携わった研究者らは、患者のデータを保護しつつ分散型の解析を遂行するために、技術や法律、倫理の各方面で大きな難題を乗り越えねばならなかった。研究者は16の作業部会に分かれ、例えば変異の頻発度の評価や腫瘍進化の推測など、がんゲノミクスの各側面に集中して取り組んだ。
PCAWGコンソーシアムが統合的解析を行ったのは、合わせて38種類の腫瘍である。2658例のがん全ゲノム(図1)と、それに対応する同一個体由来の非がん細胞検体の全ゲノムについて、塩基配列が解読された。これらのデータは、1188例のトランスクリプトームの情報(1つの腫瘍におけるRNA転写産物の塩基配列と存在量)によって補完された。
図1 がんと闘うための国際的な取り組み
がん種横断的全ゲノム解析(PCAWG)コンソーシアムは、4つの大陸(青色は参加国)にまたがるがん研究者グループである。このグループは38種類の腫瘍に由来する2658例のがん全ゲノムの塩基配列を解読し、解析した。この取り組みに含まれる膨大な量のデータを扱うには、高度なクラウドコンピューティングの手法が必要だった。今回のPCAWGからの論文6本1-6は、解析で明らかになった、がんゲノムのさまざまな側面を報告している。*ネイチャー・リサーチ出版誌は、報告されたマップにおいて争われている権限上の主張に対して中立の立場を維持します。
これらの取り組みには、厳しい品質管理や組織的なデータ処理、さらに、変異検出に使う計算処理経路の大規模で体系的な実験的検証が必要だった。そこで、さまざまな計算アルゴリズムや計算処理経路を同時に使用して比較した。これには、数百テラバイトのデータ、多数のデータセンターへの分散、そしておそらく数百万時間もの処理時間を必要とし、計算は全てクラウドコンピューティングによって促進された。今回のPCAWGの取り組みは、クラウドコンピューティングがいかに国際共同研究を可能にし、データ量の多い研究領域の前進に役立つかを示す格好の例となった。
6本の論文の1本目1(82ページ)は、PCAWGデータセットの広大さと奥深さを概説している。PCAWGコンソーシアムの報告によれば、個々のがんゲノムには平均して4〜5個のドライバー変異があり、それらががん細胞に選択上の有利さをもたらしている。解析された腫瘍のうちドライバー変異が見つからなかったのは、わずか5%だった。対照的に、多くのがんにはクロモプレクシー(連環染色体断裂融合;腫瘍の17.8%)やクロモスリプシス(染色体粉砕;腫瘍の22.3%)などのゲノム異常の特徴が見られた。これらはゲノムに大きな構造変化が生じる兆候である。
他の論文5本はそれぞれ、データセットの異なる側面をより詳しく掘り下げている。例えば、102ページの論文でRheinbayら2は、非コードDNA内の遺伝的ドライバーの特定を試みている。これは野心的な取り組みである。非コード領域内の変異を高精度で検出するのは、コード領域内の変異を検出したり変異の頻発度を評価したりするよりも実質的に難しいからだ。この論文の著者らは、周到なモデル化手法を用いて人為的な影響を排除し、非コード領域のドライバー変異を体系的に見つけ出した。
彼らの結果は、非コード長鎖RNAであるNEAT1やMALAT1といった、これまでに報告された非コード領域内ドライバーに疑問を投げ掛けるものだが、新たなドライバーも明らかにした。例えば、重要な腫瘍抑制遺伝子TP53の非コード領域に1つの頻発性変異があった。また、テロメラーゼ遺伝子TERTの非コード領域内に、このテロメラーゼの過剰発現につながる比較的高頻度の変異も見つかった(過剰発現は腫瘍細胞が無制限に分裂するのを助ける)。このことは、進行度の高い(転移性の)腫瘍に関する以前のがん種横断的な研究7で明らかになった、テロメラーゼ変異の発生率の高さ(12%)と対応する。この研究は、他の非コード領域ドライバーの存在は排除できなかったものの、この種の変異がありふれたものでないことを示している。
94ページのAlexandrovらの論文3と、112ページのLiらの論文4では、シグネチャーと呼ばれるゲノム異常に重点を置いて調べている。DNA修復機構の異常や環境変異原への曝露といったさまざまなプロセスが、これらの特徴的なDNA異常パターンを生じさせる。既知の変異シグネチャーを詳細に調べたり、新しいシグネチャーを見つけたりしようとするなら、大規模なゲノムデータが不可欠である。中でも驚いたのは、AlexandrovらとLiらが見つけたシグネチャーは合わせて97例に上ったことだ。こうした既存研究の拡充部分には、従来からある一塩基置換シグネチャーだけでなく、複数塩基置換バリアントやDNAの小規模な挿入・欠失といったシグネチャーも含まれる。
注目されるのは、Liらが、構造バリアント(SV;ゲノムの大規模領域の再編成)など、再現性のあるシグネチャーを初めて明らかにしたチームの1つであることだ。これに関する解析処理は、SVの多様性や複雑性のため、変異シグネチャーを特定するための解析処理よりもはるかに複雑だった。
Liらは、変異をサブグループ化する一連の手順で16のSVシグネチャーを特定し、2つのSV間の機構的関連性と思われるものや欠失、相互型の逆位(DNAセグメントの向きの逆転を含む)などを明らかにした。また彼らは、がんにおける16のSVシグネチャー全ての役割についても手掛かりを得た。特定のDNA修復遺伝子の変異は、特徴的ながんシグネチャーと関連することが明らかになった。例えば、PCAWGコンソーシアムは、遺伝子CDK12の変異が重複遺伝子の縦列と関係していることや、DNA修復酵素MBD4の切断型バリアントが、CpG配列と呼ばれるDNA塩基配列を含む独特な変異シグネチャーと共に存在していることを示した。総合すると、これらの新しく見つかったシグネチャーは、がん発生の機構や、この過程に変異原への曝露が果たす役割を解明するための土台となる。
「がんは進化の過程を経て発生・成長する」という考えが最初に提案されたのは1976年8。以降、ランダムな変異や自然選択の観点から、がん進化の特徴が解析されてきた。高い適応度をもたらす変異を保有するがん細胞は、急速に増殖し、細胞集団内で最も優勢な細胞クローンとなる。この「クローンの多様性の減少(clonal sweep)」と呼ばれる現象は、がん増殖の最中に何度も起こる。がんの進化を調べるには、1個の腫瘍につき複数部位の塩基配列を継時的に解析することが極めて有効だが、単一の生検からの再構築も可能であり、122ページの論文5でGerstungらが採用したのは後者だ。
Gerstungらは「分子時間」という概念を導入し、1個の腫瘍の細胞全てに存在する「クローン変異」と、1個の腫瘍の中の一部の細胞群のみに存在する「サブクローン変異」を分類した。サブクローン変異は、そのがんの進化の後期に出現したはずだと彼らは考えた。また、クローンがコピー数増加(1個の遺伝子もしくは染色体領域のコピー数の増加)を経る前か後のどちらの時期に変異が出現したかによって、クローン変異を前期と後期に分類した。Gerstungらは、多数の腫瘍から得た進化データを統合し、そこからAPC–KRAS–TP53進行経路9などの比較的高頻度の変異軌跡を突き止められるようにした。APC–KRAS–TP53は大腸がんで変異が生じる典型的な順序を表している。
Gerstungらは、任意のがんに最も頻繁に見られるドライバー変異には最初期に生じる傾向があることを発見した。同様に、コピー数増加が特定のがん種で高頻度に存在する場合、それらは早期に生じる傾向がある。例えば、5番染色体の一部にあるコピー数増加は、腎明細胞がんでよく見られ、このがんの進化の早期に現れる傾向がある。逆に全ゲノム重複は、このがんでは比較的後期の事象である。研究チームは、腫瘍の40%以上では時間とともに変異シグネチャーが変化することも見つけた。これらの変化は、がんが進行すると環境曝露の関与が減少し、DNA修復異常の頻度や深刻度が高まることを反映している。総合すると、このチームの知見は、がんの診断が下される数年前にはドライバー変異が生じている可能性を示唆している。このことは、がんの早期発見やバイオマーカー開発に関係してくる。
最後の論文6(129ページ)では、トランスクリプトーム・データと対応させたPCAWG検体1188例を用いて、DNAの変化とRNAの変化を機能的に関連付けている。その結果、数百例のDNA一塩基変異と近隣遺伝子の発現との関連性が明らかになった。しかし、もっと大規模なコピー数変化は、がん細胞における遺伝子発現変化の主要なドライバーと分かった。変異は、非コード領域(イントロン)の内部に新しいタンパク質コード領域(エキソン)が形成されるといった、転写産物の構造変化とも関連付けられた。
この論文の著者らは、「ブリッジ型融合(bridged fusion)」の頻度に関する特徴解析も行った。これは、2個の遺伝子が第3の介在的なDNA断片の橋渡しによって融合する現象である。最終的に、解析した1188検体のうち87検体にはDNAレベルのドライバー変化がなかったが、どの検体にもRNAレベルの変化が見つかった。これらの手掛かりを総合すると、がん研究のためにRNAとDNAの塩基配列を統合的に解析することの重要性10がよく分かる。
これら6本の論文は、他の学術誌などで同時に発表された論文(go.nature.com/3boajsm)と共に、がんゲノミクスやクラウドゲノミクスの大きな節目となる重要な成果だ。PCAWGは推論を重視することで、主に観察結果に根差した10年間のがん塩基配列解析をさらに発展させることに成功した。推論による解析は記述的研究よりも、がんをより深い所まで見ることができるが、それらの結果には、不確定性もかなり伴うことを記憶にとどめておく必要がある。
PCAWGデータセットは可用性も品質も高く、生物学上の手掛かりや方法論の発達を次々ともたらしてくれるだろう。ゲノムの三次元構成の探査など他の機能的ゲノムデータセットとの統合も、遺伝的異常の原因と結果のさらなる解明につながることは間違いない。
今回の研究の最大の難点は、患者の転帰と治療に関する臨床データが欠けていることだ。この種のデータがあれば、臨床転帰を予測できる遺伝的変化を特定できたことだろう。しかし幸いなことに、国際がんゲノムコンソーシアムのゲノム腫瘍学研究促進(ICGC–ARGO)と呼ばれる後継プロジェクトが現在、がん患者10万人以上に関するその種の情報資源の創出を進めている。
PCAWGには最終的に1300人以上もの研究者が参加し、その目標を達成するために一丸となって研究を進めた。これらの取り組みの長期的な影響は、今回発表された知見だけにとどまらず、この世界規模の研究者コンソーシアムのメンバー間に形成された協力関係や知識のやりとりからももたらされることだろう。
翻訳:船田晶子
Nature ダイジェスト Vol. 17 No. 5
DOI: 10.1038/ndigest.2020.200540
原文
Global genomics project unravels cancer’s complexity at unprecedented scale- Nature (2020-02-06) | DOI: 10.1038/d41586-020-00213-2
- Marcin Cieslik & Arul M. Chinnaiyan
- Marcin Cieslik & Arul M. Chinnaiyanは、ミシガン大学(米国アナーバー)に所属。
参考文献
- ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium. Nature 578, 82–93 (2020).
- Rheinbay, E. et al. Nature 578, 102–111 (2020).
- Alexandrov, L. B. et al. Nature 578, 94–101 (2020).
- Li, Y. et al. Nature 578, 112–121 (2020).
- Gerstung, M. et al. Nature 578, 122–128 (2020).
- PCAWG Transcriptome Core Group et al. Nature 578, 129–136 (2020).
- Priestley, P. et al. Nature 575, 210–216 (2019).
- Nowell, P. C. Science 194, 23–28 (1976).
- Fearon, E. R. & Vogelstein, B. Cell 61, 759–767 (1990).
- Robinson, D. R. et al. Nature 548, 297–303 (2017).
関連記事
Advertisement