News Feature

ヒト遺伝子のヒット・ランキング

Peter Kerpedjievは遺伝学の速習コースを必要としていた。彼はソフトウエアエンジニアだが、バイオインフォマティクスの講習をある程度受けていて、PhDを取得しようと思っていた。そこで、遺伝学を速習すれば生物学の基本原理を一部知るのに実際に役立つだろうと考えたのだ。「誰か研究者と知的な会話をしたい場合、どんな遺伝子を知っていればいいのだろうか」と彼は思った。Kerpedjievは早速、遺伝子データベースに直行した。米国立医学図書館(NLM;メリーランド州ベセスダ)は、PubMedという有名なデータベースにある、遺伝子の機能についての何らかの情報を含むほぼ全ての論文に対し、系統立ったタグ付けを行っている。Kerpedjievは、遺伝子の構造や機能、ゲノム内の位置、もしくはその遺伝子がコードするタンパク質を記載しているという印が付いた全ての論文を拾い出した

彼は、これらの記録を調べてより分け、史上最もよく研究された遺伝子のリストをまとめ上げた。これにより、ヒトゲノムの「ベストヒット遺伝子」のリストと、ヒト以外のゲノムについての同種のリストが出来上がった。

その結果、第1位に輝いたのはTP53という遺伝子だった。Kerpedjievが3年前に最初に解析を行ったとき、研究者らはこの遺伝子、もしくはその産物タンパク質であるp53を丹念に調べており、約6600本の論文に記載されていた。現在は約8500本となり、今も増え続けている。平均して毎日約2本の論文が、TP53の基礎生物学に関する新しい詳細な情報を報告していることになる。

TP53が第1位だと分かっても、多くの生物学者にとっては大してニュースにならない。この遺伝子は、「ゲノムの守護者」として広く知られる腫瘍抑制因子であり、ヒトの全がんのほぼ半数で変異しているからだ。「1位の座を保っているのは、そうした理由からです」と、ジョンズホプキンス大学医学系大学院(米国メリーランド州ボルティモア)のがん遺伝学者Bert Vogelsteinは話す。「がんでこれより重要な遺伝子は今のところありません」。

しかし、ランキングの上位には、あまり有名でない遺伝子がいくつか入っている。その中には、過ぎ去りし時代の遺伝学研究では注目されたが、技術の進歩につれて流行遅れになってしまったものもある。「このランキングには驚きました。順位が予想どおりの遺伝子もありましたが、全く予想外のものもありました」とKerpedjievは話す。彼は現在、ハーバード大学医学系大学院(米国マサチューセッツ州ボストン)でポスドク研究員としてゲノムデータ可視化を研究している。

もう少し踏み込んで調べるため、NatureはKerpedjievと共に、史上最も研究されたこれらの遺伝子を解析した(「ランキング上位の遺伝子」参照)。こうした取り組みは、会話のきっかけになる話題を提供するだけでなく、生物医学研究の重要な動向を浮かび上がらせ、特定の疾患や公衆衛生の問題を巡る懸念によって研究の優先順位が病因遺伝子にシフトしてきたことを明らかにしてくれる。また、ごく少数の遺伝子(その多くは複数の分野や疾患領域に広く関係している)が研究の大部分を占めてきたことも明らかになった。

ランキング上位の遺伝子
米国立医学図書館(NLM)は、生物医学文献データベースPubMedに格納する論文の注釈付けを2002年から開始した。この取り組みで、2万7000個のヒト遺伝子(RNA遺伝子や偽遺伝子も含む)について、遺伝学研究の動向が明らかになり、最もよく研究されたヒト遺伝子のリストも得られる。 Credit: SOURCE: PETER KERPEDJIEV/NCBI-NLM

ヒトゲノムには、タンパク質コード遺伝子が約2万あるが、そのうちわずか100個が、NLMがタグ付けした全論文の4分の1以上を占めている。いかなる年にも論文がない遺伝子は、数千個に上る。「あえて研究しようと思う人がいない故に機能が不明なままの遺伝子がいかに多いかが、この解析から明らかになります」と、ケンブリッジ大学(英国)の科学史家Helen Anne Curryは話す。

遺伝子のはやり廃り

最初のヒトゲノム概要配列が発表されて間もない2002年、NLMは、PubMedのデータベースに格納する論文に「遺伝子機能参照(GeneRIF)」タグを体系的に添付し始めた1。さらに、そうした注釈付けを1960年代までさかのぼって拡大し、時には他のデータベースも使って詳細情報を補足するのに役立てた。ただし、この記録データは完璧に情報収集・整理されたものではない。「総じて見ると、このデータセットには多少のノイズが入っています」と、NLMの職員で科学者のTerence Murphyは話す。2002年以前に発表された論文には、おそらく何らかの標本抽出バイアスがかかっていることに留意するよう彼は言っている。つまり、一部の遺伝子が過度に抽出されたり、少数の遺伝子が誤って抜けたりしているということだ。「といっても、さほどひどくはありません」とMurphyは話す。「多数の遺伝子にわたって情報を集約するにつれて、こうしたバイアスの一部は潜在的に減っていくからです」。

そうした留意点はあるものの、PubMedの記録からは、遺伝子関連の論文には特定の「はやり」のテーマに集中する傾向が見られ、それにより歴史的にいくつかの時代区分が存在することが明らかになった(「はやりの遺伝子の経年変動」参照)。例えば1980年代半ばより前には、赤血球中に存在する酸素運搬分子ヘモグロビンについての遺伝学研究が盛んだった。1985年以前の全てのヒト遺伝学研究の10%以上は、何らかの形でヘモグロビンに関するものだ。

はやりの遺伝子の経年変動
研究文献を席巻する遺伝子は時を経るにつれて変わっていく。そうした動向は、鎌状赤血球症などの遺伝疾患の発生機序解明(HBBの推移を参照。以下も同じ)や、新しい感染症に関する懸念(CD4)、細胞シグナル伝達についての画期的な研究成果(GRB2)などを反映している。 Credit: SOURCE: PETER KERPEDJIEV/NCBI-NLM

その当時、研究者らはまだ、ライナス・ポーリングとバーノン・イングラムの初期の研究を土台にして研究を進めていた。2人は、分子レベルの疾患研究という分野を開拓した先駆的な生化学者であり、それぞれ1940年代と1950年代に、異常ヘモグロビンが原因で鎌状赤血球症が生じる仕組みを発見した。ヘモグロビンをはじめとするタンパク質の立体構造を解明した功績で1962年に生化学者ジョン・ケンドルーと共にノーベル化学賞を共同受賞した分子生物学者のマックス・ペルーツは、その後も何十年かにわたって、ヘモグロビンの形状が機能とどのように関連しているかを探り続けた。

米国立衛生研究所(NIH;メリーランド州ベセスダ)の歴史上級顧問である医師で科学者のAlan Schechterによれば、ヘモグロビン遺伝子は当時、「分子病を解明し、おそらく治療するための入り口」として最も期待されていた遺伝子なのだという。

自身も鎌状赤血球症の研究者であるSchechterは、ヘモグロビン遺伝子は1970〜1980年代初めの遺伝学関連の主要な会合でも、血液疾患の会合でも、中心的な話題の1つだったと話す。しかし、DNAの塩基配列解読や操作のための新技術が使えるようになるにつれて、研究者はこれ以外の遺伝子や疾患へと手を広げ始めた。その1つが、当時、主に同性愛男性たちの間で流行を見せていた謎の感染症、エイズ(後天性免疫不全症候群;AIDS)である(Natureダイジェスト 2017年1月号「容疑が晴れたHIVペイシェント・ゼロ」参照)。

HIVがエイズの原因だとする発見は1983年のことだが、それ以前からDavid Klatzmannなどの臨床免疫学者は、エイズ患者に特異な病理学的パターンが見られることに気付いていた。「エイズ患者にT4細胞がないことを知って驚きました」と、現在はピエール・マリー・キュリー大学(フランス・パリ)にいるKlatzmannは当時を振り返る。彼は細胞培養実験で、HIVが免疫系のT細胞の一種であるT4細胞に選択的に感染して破壊することを明らかにした2。この結果を受けて、HIVはどうやってT4細胞に入り込むのかという疑問が出てきた。

Klatzmannは、免疫学でT4細胞を定義するために使われている細胞表面タンパク質(後にCD4という名称で呼ばれる)が、細胞にHIVが侵入するための受容体としても使われているのではないかと考えた。その推論は正しく、彼は1984年12月に発表した論文でこのことを報告した3。当時英国ロンドンがん研究所にいた分子ウイルス学者Robin Weissも同僚と共に、同様の論文をKlatzmannらと同時に発表した4

それから3年足らずのうちに、CD4は生物医学文献の記載ランキング第1位になり、1987〜1996年までその状態が続いた。この期間、CD4はNLMの集計した全タグの1〜2%を占めていた。その人気の高さは、新たに出現したエイズ危機と闘うための取り組みに一部由来していた。例えば1980年代後半には、いくつかの企業がエイズ治療用のCD4タンパク質というアイデアに飛びついた。HIVが健康な細胞に感染する前にHIV粒子を掃討できるよう、CD4タンパク質を遺伝子操作しようというものだ。しかし、ヒトでの小規模な試験から得られた結果は「がっかりするもの」だったと、米国立がん研究所AIDS・がんウイルスプログラム(NCI;メリーランド州フレデリック)の主任であるJeffrey Lifsonは話す。

CD4の人気の高さは、むしろ基礎免疫学との関連の方が大きかった。1986年になって、CD4を発現するT細胞は2種類に分類できることが分かったのだ。細胞に感染した細菌やウイルスを排除する種類と、細胞に侵入せずに疾患を引き起こす寄生虫などの寄生生物から防御する種類である。「これが明らかになったときは、とても興奮しました。当時分かっていたことは本当にわずかだったからです」と、ニューヨーク大学医学系大学院(米国)の免疫学者Dan Littmanは当時を回想する。その前年の1985年、彼はCD4をコードするDNAを単離して細菌に導入する研究に関わった5。このおかげで、研究用に大量のCD4を作れるようになっていた。

CD4発現T細胞が2種類あると分かってから10年後、3つの研究チームが、HIVが細胞に侵入するためにCD4と一緒に、別のCCR5という受容体を利用することを突き止めた。Littmanはそのうち1つのチームの共同代表著者となった6。CD4とCCR5、そして第二の補助受容体CXCR4は、今日においても集中的・包括的なHIV研究の中心的テーマであり続けている。その目標はHIVの細胞侵入の阻止だが、まだ実現には至っていない。

つかの間の名声

TP53は1990年代初頭には、すでにかなり上位にいたが、この遺伝子が首位を獲得するまでの数年間スポットライトを浴びたのが、GRB2という遺伝子だった。

当時、研究者らは細胞同士のコミュニケーションに関わる特異的なタンパク質相互作用を特定し始めていた。細胞生物学者アンソニー・ポーソンは先駆的研究を行い、そのおかげで、細胞内の一部の小型タンパク質にはSH2というモジュールが含まれており、それが細胞表面にある活性化したタンパク質に結合して核へシグナルを伝えることが明らかになった。

1992年、エール大学医学系大学院(米国コネチカット州ニューヘイブン)の生化学者Joseph Schlessingerは、GRB2にコードされる増殖因子受容体結合タンパク質2が、そうしたシグナルの中継点であることを明らかにした7。このタンパク質には、1個のSH2ドメインと、細胞の増殖や生存に関わるタンパク質を活性化させる2つのドメインが含まれている。「分子の仲人役のようなタンパク質です」とSchlessingerは説明する。

他の研究者らはすぐに、その中継経路の隙間を埋め、シグナル伝達という1つの研究分野を築いた。じきに、細胞シグナル伝達の他の構成要素がたくさん発見され、それらは最終的に、がんや自己免疫疾患、糖尿病、心疾患の治療に結び付いた。それでもGRB2は上位に踏みとどまり、1990年代後半の3年間にわたって文献に最も多く記載された遺伝子となった。

そうなった一因は、GRB2が「シグナル伝達カスケードの2つの部分を、最初に物理的に結び付ける分子」だからだと、サンディエゴ州立大学(米国カリフォルニア州)の生化学者Peter van der Geerは話す。しかも、「GRB2は細胞調節の非常にさまざまな側面に関与」している。

GRB2は、最もよく研究された遺伝子リストの中では、ある意味「はみ出し者」かもしれない。疾患の直接の原因でもなく、薬剤標的でもないからだ。「人気が急上昇して間もなく下がったのは、臨床的に有用ではないからでしょう」と、カロリンスカ研究所(スウェーデン・ストックホルム)と、ピエール・マリー・キュリー大学(フランス・パリ)で長年TP53を研究するThierry Soussiは話す。ランキングの上位にとどまり続ける遺伝子には大抵、公的な資金提供を引き寄せるような治療面の潜在的有用性がある。「大概そうです。遺伝子の重要性は、その臨床的な価値と連動しているのです」とSoussi。

また、遺伝子の重要性は、発現レベルや、集団間での差異の程度、構造の特徴といった一定の特性とも連動している可能性がある。このことは、ノースウェスタン大学(米国イリノイ州エバンストン)のシステム生物学者Thomas Stoegerの解析と一致する。彼は2017年11月にドイツのハイデルベルクで開催されたシンポジウムで、最も人気を集める遺伝子を、あるアルゴリズムにそれらの特性を加えるだけで予測できたことを報告した。

Stoegerは、こうした関連性の理由は主として、彼が「発見可能性(discoverability)」と呼ぶものに帰着すると考えている。人気の高い遺伝子とは、たまたま生物学のホットな領域に存在していて、その時点で利用可能なツールによって見つけ出せるものだ、というのだ。「一部の遺伝子は他の遺伝子よりも研究しやすいのです」とStoegerは説明する。そして、それが問題となる。なぜなら、莫大な数の遺伝子がいまだに特性解析の対象になっておらず、十分に探索もされずにいるため、ヒトの健康や疾患の理解に大きな空白部分が残っているからだ。

Curryは、政治家や製薬会社、患者支援団体が形作る「技術的、社会的および経済的な要因の絡み合い」も指摘している。

適切な場所で適切なときに

Stoegerは、人気の高い遺伝子の総体的な特性が時間を経るにつれてどう変化したかも追跡した。その結果、例えば1980年代には主に、産物であるタンパク質が細胞外に存在する遺伝子の人気が高かった。これはおそらく、こうしたタンパク質だと単離して調べるのが非常に容易だったからだろう。産物が細胞内に存在する遺伝子へと人気が移ったのは、もっと最近になってからだ。そうした人気の移行は、ヒトゲノム解読の発表と並行して起こったとStoegerは話す。ヒトゲノム解読によって、さらに多くの遺伝子が研究対象として開放されたのだ。

ただし、最もよく研究された遺伝子の多くには、こうした大まかな傾向が当てはまらない。例えばp53タンパク質の遺伝子TP53は、2000年前後に最も研究されるようになったが、核内で活性状態にあるにもかかわらず1979年にタンパク質特性が解析されていた。しかし、最初の発見後に正しく解明されていなかった。これは、生物学研究を席巻している多くの遺伝子にも共通している。そう考えれば、この遺伝子がランキングの首位に上り詰めるまで20年ほどかかった理由が説明できるだろう。

当初、がん研究者らはTP53をがん遺伝子だと勘違いしていた。がん遺伝子とは、変異すると細胞をがん化させる遺伝子のことだ。この勘違いは、Vogelsteinの研究室にいた大学院生のSuzanne Bakerが1989年に、TP53が実は腫瘍抑制因子の遺伝子であることを示す8まで続いた。この時から、TP53の機能研究が本格的に進み出した。「グラフで論文数の急上昇した山型の部分から、実際に関心が高まった時期を知ることができます」とBakerは話す。彼女は現在、聖ジュード小児研究病院(米国テネシー州メンフィス)で脳腫瘍を研究している。

トップテン
史上最もよく研究された遺伝子トップテン。これらが記載された論文の数は計4万本を超える。 Credit: SOURCE: PETER KERPEDJIEV/NCBI-NLM

ヒトのがんに関する研究から、TNFにも目が向けられた。TNFは、最も文献に記載されたヒト遺伝子としてTP53に次ぐ史上第2位を占め、NLMデータの5300本以上の論文に記載されている(「トップテン」参照)。TNFがコードする「腫瘍壊死因子」というタンパク質の名称は、がん細胞を殺す能力から1975年に付けられた。しかし、抗がん作用をTNFの主要な機能とすべきではないことが明らかになった。治療用のTNFタンパク質をヒトで試験した際に強い毒性が現れたのだ。その後、TNFは炎症を介在する因子であって、腫瘍に対する作用は二次的なものであることが判明した。1980年代半ばにこのことが明らかになると、研究者の関心はすぐに、TNFの作用を阻害する抗体を試験することに向けられた。現在、抗TNF療法は関節リウマチなどの炎症疾患治療の主力となっており、全世界で合計して年間数百億ドルもの売り上げを得ている。

TP53の首位の座は、一時的に別の遺伝子APOEに取って代わられた。APOEタンパク質は最初、1970年代半ばに、血中からのコレステロール除去に関与する輸送体として報告され、心疾患を予防するための脂質降下薬として「真剣に検討」されたのだと、カリフォルニア大学サンフランシスコ校(UCSF;米国)のRobert Mahleyは話す。彼はこの分野の先駆的研究者で、APOE投与の試験をウサギで行った9

しかし結局、1980年代後半のスタチンの登場によって、APOEによるコレステロール除去法は薬理学史の中ですっかりかすんでしまった。だがその後、神経科学者Allen Rosesが同僚らと、アルツハイマー病患者の脳内に存在する粘着性のプラークにAPOEタンパク質が密接に関係していることを見いだした。1993年に、APOEの型の1つであるAPOE4が、アルツハイマー病の大幅なリスク上昇と関連していることを明らかにしたのだ10Nature ダイジェスト 2014年9月号「忘却の遺伝子」参照)。

これによってAPOE4への関心は大いに高まった。それでもまだ、この遺伝子が最も研究されている遺伝子のランキング上位に入るには時間がかかった。「受け止め方は非常に冷めたものでしたね」と、ジンファンデル・ファーマシューティカル社(Zinfandel Pharmaceuticals;米国ノースカロライナ州ダーラム)の最高責任者である神経遺伝学者Ann Saundersは当時を思い出す。彼女は、亡夫であるRosesと共同でAPOE4を研究していたのだ。当時のアルツハイマー研究者の間では、アミロイドβと呼ばれるタンパク質断片の凝集がアルツハイマー病の原因だとする「アミロイド仮説」が大ブームとなっていた。また、コレステロール輸送タンパク質とアルツハイマー病の関わりの解明に興味を示した研究者はほとんどいなかった。しかし、APOE4とアルツハイマー病の発症リスクとの遺伝学的な関連性は、「反論の余地がない」ものだったとMahleyは話す。そして2001年、APOEは一時的にTP53を追い抜き、現在もまだ、少なくともヒト遺伝子のランキングでは史上トップファイブに入っている(「トップテン」参照)。

APOE4がよく研究されている理由は、他の人気の高い遺伝子と同様、現代の健康問題において最も深刻な未解決課題の1つ(この場合はアルツハイマー病)に極めて重要だからだ。ただし、重要視されるようになったのは、抗アミロイド療法の臨床試験がほぼ停止したためでもある。「こんな言い方は嫌ですけれど、抗アミロイド療法の臨床試験の失敗が私にとっては追い風になりました」とMahleyは話す。彼は2017年に、経営するE-Scape Bio社でAPOE4タンパク質を標的とする薬剤を開発するために6300万ドル(約70億円)を集めた。彼によれば、抗アミロイド療法が失敗したことで、製薬業界や資金提供機関はアルツハイマー病と闘うための治療戦略を再考せざるを得なくなったのだという。

ランキングの上位に入るのはなかなか難しい。ある遺伝子が他のどの遺伝子よりも研究されるようになるには、生物学的特性や社会的圧力、ビジネスチャンス、医療上の需要といった複数の要素がある程度重なり合う必要があるのだ。しかし、そうやって遺伝子がいったん上位に入ると、「保守化の段階」に入るのだと、リーズ大学(英国)の科学史家Gregory Radickは話す。「特定の遺伝子が確実で無難な研究対象として浮上し、その後も状況が変化するまで上位に居続けるのです」。

ヒトの枠組みを超えて

多種多様な遺伝子
生物の遺伝子に関する約130万本の論文のうち、半数近くはヒト遺伝子に関するものだ。 Credit: SOURCE: PETER KERPEDJIEV/NCBI-NLM

米国立医学図書館(NLM)は、数十種の生物の遺伝子を記載した論文も追跡しており、それらの種の中にはマウスやハエなどの重要なモデル生物だけでなくウイルスも含まれている(「多種多様な遺伝子」参照)。過去50年間にわたって最も研究されてきた上位100個の遺伝子のうち、3分の2以上がヒト遺伝子だが、実際には、ヒト以外の生物の遺伝子がかなり上位に登場する。こうした遺伝子は多くの場合、ヒトの健康と明らかな関連性がある。例えばTP53のマウス版や、細胞への侵入に関わるエンベロープタンパク質をコードするウイルス遺伝子のenvがそれに当たる。

 それ以外の遺伝子は、より広範な遺伝学研究の基盤となったものだ。キイロショウジョウバエのwhiteという遺伝子は、約3600本もの論文で取り上げられている。それをさかのぼると、1910年のある日、コロンビア大学(米国ニューヨーク州)にいた生物学者トーマス・ハント・モーガンが拡大鏡をのぞいていて見つけた、眼が通常の赤色ではなく白色の雄ショウジョウバエにたどり着く11whiteの産物によって生じるショウジョウバエの変化は簡単に観察できるため、この遺伝子は、研究者がショウジョウバエゲノムの地図作成や遺伝学的操作を目指す際にマーカーとなってくれる。whiteは基礎生物学のさまざまな発見に寄与した12。その中には、対となった染色体同士の「不等価交換」が原因で長いDNA領域が一方の染色体でのみ重複する場合がある(他方は欠失している)ことを実証した研究もある。

 史上最も人気の高い非ヒト遺伝子はマウスゲノムのRosa26という領域だが、その正常時の機能はまだほとんど解明されていない。Rosa26は、1991年に発表された実験研究をきっかけに人気となった13。細胞生物学者Philippe SorianoとGlenn Friedrichがウイルスを使って、改変した遺伝子をマウスの胚性幹(ES)細胞に無作為に導入したところ、ROSA26という愛称が付いていたES細胞株から発生したマウスでは、導入した遺伝子が常にほぼ全ての組織で発現した。この発見は、遺伝子改変マウスの作製・操作ツールを作るための足掛かりとなった。それ以来、Rosa26として知られるこの座位は約6500件もの機能研究に寄与してきた。これはTP53に次ぐ論文記載数だ。E. D.

翻訳:船田晶子

Nature ダイジェスト Vol. 15 No. 2

DOI: 10.1038/ndigest.2018.180224

原文

The most popular genes in the human genome
  • Nature (2017-11-23) | DOI: 10.1038/d41586-017-07291-9
  • Elie Dolgin
  • Elie Dolginは、米国マサチューセッツ州サマービル在住のサイエンスライター。
    図版PDFダウンロード

参考文献

  1. Mitchell, J. A. et al. AMIA Annu. Symp. Proc. 2003, 460–464 (2003).
  2. Klatzmann, D. et al. Science 225, 59–63 (1984).
  3. Klatzmann, D. et al. Nature 312, 767–768 (1984).
  4. Dalgleish, A. G. et al. Nature 312, 763–767 (1984).
  5. Maddon, P. J. et al. Cell 42, 93–104 (1985).
  6. Deng, H. et al. Nature 381, 661–666 (1996).
  7. Lowenstein, E. J. et al. Cell 70, 431–442 (1992).
  8. Baker, S. J. et al. Science 244, 217–221 (1989).
  9. Mahley, R. W. et al. J. Clin. Invest. 83, 2125–2130 (1989).
  10. Strittmatter, W. J. et al. Proc. Natl Acad. Sci. USA 90, 1977–1981 (1993).
  11. Morgan, T. H. Science 32, 120–122 (1910).
  12. Green, M. M. Genetics 184, 3–7 (2010).
  13. Friedrich, G. & Soriano, P. Genes Dev. 5, 1513–1523 (1991).