Japanese Author

統計学と情報学で病気を解き明かし、個々の患者に合った医療へ

多数の遺伝要因が積み重なって起こる「複雑疾患（多因子疾患）」。糖尿病や心筋梗塞、統合失調症など、大半の病気がそうだ。そのような病気の解析手法である「ゲノムワイド関連解析（GWAS）」を用いて、次々と研究成果を発表してきた鎌谷洋一郎・東京大学大学院メディカル情報生命専攻教授。GWAS研究は一時の停滞期からなぜ再び注目を浴びるようになったのか。世界の研究の潮流と今後の抱負について話を聞いた。

–– ここ2〜3年、鎌谷教授が参加したゲノムワイド関連解析（GWAS）の研究論文がNature やNature 関連誌に頻繁に登場しています。GWASとはどのような研究ですか？

鎌谷氏：多数の遺伝要因が積み重なり、さらに環境要因も加わって引き起こされる疾患を複雑疾患（多因子疾患）と呼びます。糖尿病や心筋梗塞、脂質異常症、統合失調症など、ありふれた病気のほとんど全てが、これです。個々の遺伝要因の影響は極めて小さいのですが、それら多数の影響が足し算されて、病気の遺伝要因を構成すると考えられています。このような考え方は、100年前の遺伝統計学者により提唱されたもので、ポリジェニック（多遺伝子）モデルといわれます。

GWASとは、このポリジェニックモデルに基づいて、複雑疾患における遺伝要因を調べる解析手法です。具体的には、個人のゲノムを調べ、そのゲノムデータを統計学と情報学を用いて解析することにより、病気と遺伝要因の関連を明らかにします。またそれを応用して、複雑疾患の発症リスクをスコア化する方法（ポリジェニックリスクスコア）も盛んに研究されています。

GWAS研究を振り返る

–– GWAS研究の最初の登場は2000年代にさかのぼりますね。

鎌谷氏：2000年代前半に、中村祐輔先生（当時、東京大学医科学研究所ヒトゲノム解析センター長）や田中敏博先生（当時、理化学研究所）が世界に先駆けてGWASの研究成果を発表しました¹。2007年には、英国からGWAS研究のその後の方向性を決めることとなった重要な論文が発表されました²。GWASを、遺伝統計学に基づいて精緻に論じた論文です。例えば、仮説を統計学的にGWASで証明するには、大人数の被験者が必要であると説き、それを立証しました。

–– GWAS研究には一時期、停滞期があった印象があります。

鎌谷氏：確かに、2010年代の前半ごろは、GWASに対する周囲の評価が低くなっていました。GWASの結果から、遺伝要因（有意な疾患感受性座位）が見つかりましたが、それらは疾患や形質を説明する力が小さく、生物学的にも説明されにくかったからです。また、GWASの基盤となるSNPアレイのデータに疑問を持つ意見も根強くありました。

しかし、やがて大人数の被験者によるGWAS研究の成果が世界中から次々と発表されるようになりました。単純に、被験者の人数が増えることにより、GWASの説明力が増したのであり、ポリジェニックモデルが予測していた通りでもあります。そして、評価も戻りました。

例えば、統合失調症の遺伝要因は、初期のGWASでは全く見つからなかったのですが、被験者数が1万人を超えた辺りから見つかりだしました。2015年にはUKバイオバンクが50万人のゲノムデータを収集し、GWASで解析した結果を発表しました。私が関わってきた日本のバイオバンク・ジャパン（BBJ）も、20万人のゲノムデータを収集し、成果を発表しています。GWAS研究が盛り返したこの時代の波に、幸い私はうまく乗れたのだと思います。なお、ヒトゲノムは民族集団ごとにも違いがあります。GWASの成果を世界の民族集団で比較することも重要なので、東アジアの研究者として、私に声が掛かることも多くあります。

–– 患者のゲノムデータはSNPアレイで取得するのですね。

鎌谷氏：BBJでは、SNPアレイを用いています。マイクロアレイの一種で、ゲノムに全体的に配置されたマーカーの塩基配列を調べる技術です。SNPアレイで50～100万箇所のマーカーを調べれば、各個人のゲノムを代表するデータが得られます。2010年代にNGS（次世代シーケンサー）技術が台頭してからは、それより古い技術であるSNPアレイを用いることを不思議がられたこともありました。しかし、当時BBJを率いていた久保充明先生は、被験者の人数の重要性を認識しており、大人数のゲノムデータを得る上で、コスト面で圧倒的に有利なSNPアレイを採用したのです。

一人一人のゲノムの違いを医療に生かしたい

–– 鎌谷教授がGWAS研究を始められたきっかけは？

鎌谷氏：内科の研修医時代の経験がもとです。私は、当時日本に広まったエビデンスベースドメディシン（統計学に基づいた科学的エビデンスによる治療）に心酔していましたが、大勢の患者を診ているうちに、それだけでは不十分ではないかと思うようになりました。患者一人一人に備わっている「遺伝的な違い」を考慮すべきなのではないかと。

そこで、2006年、中村祐輔先生の下で大学院生としてGWAS研究をすることにしたのです。中村先生は、患者ごとのゲノムの違いに着目した「オーダーメイド医療」の重要性を主張されていました。GWASは、オーダーメイド医療の基礎となる疾患の遺伝要因を明らかにできる手法なのです。

–– 博士論文がNature Genetics に掲載されましたね。

鎌谷氏：2009年の論文ですね³。慢性B型肝炎について世界で初めてGWASを行い、発症に関わる遺伝子を特定することができました。B型肝炎は世界各地で有病率に大きな違いがあり、東アジアは比較的高くなっています。私たちはこの遺伝子の、ある対立遺伝子を発見したのですが、世界各地でのこの対立遺伝子の頻度の違いによって、有病率の違いの一部を説明できるようにも見えました。これは、今のCOVID-19の遺伝学的研究にもつながる側面があるかもしれません。

2013年からは理研でGWAS研究を始めました。2003年に始まったBBJのゲノムデータが、ちょうど約20万人分集まった頃でした。2015年にはチームリーダーになりましたが、当初は、臨床系の方からの依頼で共同研究が始まり、私のチームはGWASの部分を担当する形でした。研究を進めていく中で、まだ誰も着手していない研究テーマの「ネタ」が見つかると、それについてのGWAS研究を自分たち主導で行うようにもなりました。

–– そのように主導された研究にはどんなものがありますか？

鎌谷氏：例えば2017年に発表したBMI（ボディマス指数）の研究です⁴。肥満の指標であるBMIのGWASは、欧米人を対象に既に行われていましたが、アジア人は欧米人よりも肥満が少ないことなどの理由から、アジア人での研究が期待されていたのです。BBJの日本人のデータを用いてGWASを行った結果、欧米人のみの解析では見つからなかった新たな遺伝要因を発見し、既知の遺伝要因に加えることができました。また、リスク因子と疾患との統計解析というだけでなく、ゲノム情報を通じた生物学的な推論も行えました。そして意外なことに、欧米人と日本人でBMIの遺伝要因はかなり共通であると分かりました。一方で、日本人のBMIを予測するには、欧米人のGWAS結果を用いるよりも、日本人のGWAS結果を用いる方が精度が良いことを確認しました。まだまだ解き明かすべき謎がありそうです。

–– BMIの研究はデータも公開されていますね。

鎌谷氏：はい。ゲノムデータは個人情報なので、個人を特定されない工夫を施したとしても、データの公開は避けるべきという慎重論が、長い間世界的に主流でした。2015年頃になってようやく、UKバイオバンクの「ゲノムデータを全て公開する」という方針が広く知れわたるようになり、コミュニティーの意識が変わって、データが公開しやすくなったのです。BBJのゲノムデータは現在、制限付き公開であり、セキュリティが担保されていれば、民間を含む研究機関で誰でも使えます。

–– 今回Nature で発表した論文はどのような内容ですか？

鎌谷氏：SNPアレイを応用したクローン性モザイクに関する論文です⁵。米国のブロード研究所から帰国した筆頭著者の寺尾知可史先生（理化学研究所ほか）が、同研究所の同僚と開発した解析手法を主に用いました。UKバイオバンクを用いた欧米の研究グループと、BBJを用いた私たちの研究グループとが並行して研究を進め、それぞれが論文化しました。

通常、細胞のゲノム配列には絶えず変異が起きているのですが、その変異はランダムに起こるので、細胞集団の平均値をとれば、変異は無視できると考えられています。ところが、変異が起きた細胞の中には細胞分裂を繰り返し、自分のクローンを増やすものがあります。そうなると、その変異を持った細胞は無視できない存在になります。このような変異をモザイクというのですが、例えば、白血球でモザイク変異が起きると白血病などの疾患を起こしやすくなります。今回の研究では、この白血球のモザイク変異をSNPアレイで解析し、加齢に従って増える機序を突き止めました。また、モザイク変異が起こるゲノムの箇所が日本人と英国人では異なっており、欧米人に比べて日本人では慢性リンパ球性白血病が少ない理由が分かりました（図）。

加齢に伴うモザイク変異は加齢とともに増えることが分かった（左）。14番染色体に存在するT細胞受容体領域（TRA）とB細胞受容体領域（IGH）のモザイク変異を比較すると、日本人（オレンジ）では前者が多く、後者が少ない。英国人（紫）では逆であった（右）。

新たなステージへ

–– 東大に移り、新たに研究室を立ち上げられました。

鎌谷氏：今後も、複雑疾患とは何かについて、統計学と情報学を駆使して、解明していく考えです。GWASについては、手法がだいぶ成熟してきました。それを踏まえて、私の役目は、GWASの先を考えていくことだと思っています。その「先」の1つが、社会実装。つまり、研究成果を健康診断や医療に役立たせることです。とはいえ、「あなたは、心筋梗塞になるリスクが他の人より４倍高いです」などと言われても、「だから何？」と懐疑的に思う人もいるかもしれません。社会において議論が行われるべき領域でもあります。

例えば、私は今回、日本人のGWAS研究の総合的な成果をNature Genetics に発表しましたが⁶、その中で、脳動脈瘤の発症リスクを高める遺伝要因を報告しています。個人間でゲノム塩基配列の異なる箇所のことを（遺伝的）バリアントといいます。個々のバリアントは、その人のリスクをたった1.1倍とかその程度高めるだけですが、それらのバリアントを多数解析すると、より精度の高いリスク層別化が可能となります。若い人の中でリスクが高い人に早い段階でMRIを実施すれば、突然の脳動脈瘤破裂で若くして亡くなる人を減らせるかもしれません。なお、既に英国では、人口の10%に当たる500万人のゲノムシーケンスを行い、ゲノムデータを医療に生かそうという計画が進んでいます。

複雑疾患の研究成果を社会実装するためには、研究面で、まだ不足していることがあります。1つは、複雑疾患におけるレア（稀な）バリアントの解明です。SNPアレイを用いたGWASで解明できる遺伝要因は、ヒト集団で頻度の高いもの（多型バリアント）であり、レアバリアントを見つけるには、NGSでの解析が必要になります。

ほとんどの複雑疾患は頻度の高い遺伝要因（個々の影響力は小さい）の集積で病気になり、そのうちの一部の人では、強い影響力を持つレアバリアントにより病気になると私は思っており、また、それを支持する研究成果もそろってきています。頻度の高い遺伝要因からなる発症リスクが高いだけの人と、それに加えて強い影響力のレアバリアントをも持つ人では、医療面での積極的な対処の仕方が異なってくるでしょう。

–– 複雑疾患のゲノム医療も実現されつつあるのですね。

鎌谷氏：研究面で足りないものが、まだあります。オミックス研究です。GWASで解明された遺伝要因の多くの部分が、ゲノム中の遺伝子コード配列以外の領域に存在します。その遺伝要因が、遺伝子の制御にどのような役割を果たすかを知るには、トランスクリプトーム（網羅的な遺伝子発現解析）やエピゲノム研究などと統合的に解析することが必要と考え、空間トランスクリプトームという研究に興味を持っています。GWASで解明された遺伝要因が病理組織のどこでどれくらい発現しており、それが病気の発症とどう関係するかを明らかにしたいと思っています。

また、複雑疾患の研究においては、これまで欧米発のアルゴリズムが用いられることが多く、日本発のものはほとんどありませんでした。私たちは、解析のアルゴリズムの開発に関わるか、支援を行い、世界に発信していきたいと考えています。そのためには、生物系、情報系出身にかかわらず、興味を持ってくれる若手研究者が加わってくれることを大いに期待しています。ですから、コンピューター解析によってゲノム研究を進めることを面白がってくれる人を増やすための教育にも、力を入れたいと考えています。BBJなどのデータが公開されていることは、そういう意味でも重要です。多くの若い人が直接データに触れれば、データ解析のスキルも向上していくと思うのです。若い人が自由に解析しやすい環境にあることが、AIの爆発的普及において重要な因子だったと指摘されているのですから。

–– ありがとうございました。

聞き手は藤川良子（サイエンスライター）。

Author Profile

鎌谷洋一郎（かまたに・よういちろう）

東京大学大学院メディカル情報生命専攻複雑形質ゲノム解析分野教授
2002年千葉大学医学部卒、2009年東京大学大学院博士課程修了、2013年理化学研究所統計解析研究チーム（2015年よりチームリーダー）、2017年京都大学医学研究科准教授、2019年より現職。緊急事態宣言期間中は、新しく入学した大学院生たちと毎日オンラインミーティングをして、交流を深めたそうだ。「彼らはとても喜んでいました」と語る鎌谷教授の顔が、実にうれしそうだった。

Nature ダイジェスト Vol. 17 No. 11

DOI: 10.1038/ndigest.2020.201130

参考文献

Ozaki, K. et al. Nature Genetics, 32, 650–654 (2002).
The Wellcome Trust Case Control Consortium Nature 447, 661–678 (2007).
Kamatani, Y. et al. Nature Genetics 41, 591-595 (2009).
Akiyama, M. et al. Nature Genetics 49, 1458-1467(2017).
Terao, C. et al. Nature 584, 130-135 (2020).
Ishigaki, K. et al. Nature Genetics 52, 669-679 (2020).