News

ヒト遺伝子の推定数増加で議論再燃

ヒトゲノム計画が完了して10年以上たった現在も、ヒトの遺伝子の数を特定することは難しい。 Credit: Credit: Alan Phillips/Getty

ヒトゲノム中に含まれる遺伝子数を推定する試みは、これまで幾度となく行われてきた。その最初期のものの1つに、コールドスプリングハーバー(米国ニューヨーク州)のとあるバーでほろ酔いの遺伝学者たちが単なる当てずっぽうで推定したものがある。

ヒトゲノムのドラフト配列がまだ準備段階にあった2000年のこと、遺伝学者たちは、ヒトの遺伝子の数を巡って賭けをしていた。賭けの対象となった遺伝子数の範囲は、数万から数百万だった。それから約20年、科学者たちは実際のデータを手にした今でも、遺伝子数について合意を形成できていない。そしてこのような、彼らの言うところの「知識の空白領域(knowledge gap)」は、疾患関連変異を見つけ出す上での障害となっている。

そうした中、数百のヒト組織試料から得たデータを用いてヒト遺伝子数の確定に挑んだ最新の研究成果が、2018年5月29日にプレプリントサーバーbioRxivに投稿された1。この論文で報告された遺伝子には、これまで知られていなかったものが約5000個含まれており、そのうち約1200個がタンパク質をコードしていた。この集計結果に従えば、タンパク質コード遺伝子の総数は2万1000以上となり、約2万とされてきたこれまでの推定値を大幅に上回ることになる。

しかし、新たに提唱された全ての遺伝子が厳密な検証に耐え得るものなのか、多くの遺伝学者はまだ確信できずにいる。彼らの批判は、新たな遺伝子を特定すること、そしてそもそも遺伝子とは何かを定義することがいかに難しいかを物語っている。

「この20年間、人々は懸命に研究を行ってきました。しかし、それでもまだ答えが得られていないのです」と、ジョンズホプキンス大学(米国メリーランド州ボルティモア)の計算生物学者Steven Salzbergは言う。彼は、最新の遺伝子数を提唱した研究チームの主導者だ。

確定することの難しさ

ゲノミクス業界が「いくつのヒト遺伝子が見つかるか」という話題で持ち切りになっていた2000年に、計算生物学者のEwan BirneyはGeneSweepコンテストを立ち上げた。彼は遺伝学会の年会期間中にバーで最初の賭けを開催し、最終的に1000人以上の参加者と、3000ドル(約33万円)の賭け金を集めた。このときの賭けで候補に挙がった遺伝子の数は、上は31万2000以上、下は2万6000以下で、平均はおよそ4万だった。今日では、推定数の範囲は縮小傾向にあり、1万9000~2万2000といったところだが、まだ意見は割れている(図を参照)。

Credit: SOURCE: M. PERTEA & S. L. SALZBERG

今回Salzbergの研究チームは、GTEx(Genotype-Tissue Expression;遺伝子型–組織発現)プロジェクトのデータを用いた。GTExでは、数百体の遺体から摘出した30種類以上の異なる組織において、遺伝子発現とその影響を調べるためにRNAの塩基配列を解読している(2018年1月号「遺伝子発現に対する遺伝的影響がヒト個体レベルで明らかに」参照)。RNAは、DNAとタンパク質の橋渡しをする中間の物質だ。Salzbergらは、タンパク質をコードする遺伝子や、コードしていなくても細胞内で重要な役割を担っている遺伝子を特定することを目指し、GTExで得られた9000億個の小さなRNA断片を組み立て、それらをヒトゲノム配列と比較した。

しかし、ある領域のDNA配列がRNAとして発現しているからといって、必ずしもそれが遺伝子であるとは限らない。そこでSalzbergらは、得られた結果からノイズを除去するために、さまざまな基準を用いた。例えば、他の生物種のゲノムとの比較だ。遠く離れた生物種にも共通した配列が見つかれば、その配列はおそらく重要な役割を担っているために進化的に保存されていて、遺伝子である可能性が高い。

ノイズを除いた結果、2万1306個のタンパク質コード遺伝子と、2万1856個のノンコーディングRNA遺伝子が残った。この数は、最も広く使われている2つのヒト遺伝子データベースに掲載されている遺伝子数よりも多い。欧州バイオインフォマティクス研究所(EBI;英国ヒンクストン)が管理するGENCODEの遺伝子セットには、1万9901個のタンパク質コード遺伝子と、1万5779個のノンコーディングRNA遺伝子が含まれている。他方、米国立生物工学情報センター(NCBI;米国メリーランド州ベセスダ)が運営するデータベースRefSeqには、2万203個のタンパク質コード遺伝子と、1万7871個のノンコーディングRNA遺伝子が含まれている。

NCBIのゲノム研究者であり、RefSeqの前代表であるKim Pruittによれば、このような差が生じた理由の1つはおそらく、Salzbergらのチームが解析したデータの量にあると話す。RefSeqは、210億の短い配列からなる、より古いデータセットに依存している。GENCODEもまた別のデータを用いており、こちらのタイプは転写産物の認識は容易だが、遺伝子を見落とす可能性がある。そしてもう1つ、大きな違いがある。GENCODEもRefSeqも、キュレーションを手動で行っている点だ。つまり、人の目で遺伝子の証拠を見直して最終決定を下しているのだ。対してSalzbergらのチームは、コンピュータープログラムのみでデータをふるい分けしている。

「もし皆さんに私たちの遺伝子リストを気に入っていただけたら、数年後には、私たちはヒト遺伝子の決定者になっているでしょうね」とSalzbergは言う。

しかし、多くの科学者は、この最新のリストが正しいと確信するには、もっと証拠が必要だと考えている。EBIの計算生物学者で、GENCODEの手動アノテーションを率いたAdam Frankishは、Salzbergらが突き止めたタンパク質コード遺伝子のうち100個について、Frankish自身の研究グループで精査してきたという。Frankishらの評価によれば、本当にタンパク質をコードしていそうな遺伝子は、そのうちたった1つだけだった。また、Pruittのチームでも、Salzbergらが見つけた新規タンパク質コード遺伝子を複数調べたが、いずれもRefSeqの基準を満たさなかったという。

実のところSalzbergも、彼らのリストにある新たな遺伝子は、彼ら自身や他のグループによる検証が必要となることを認めている。

さらにこの問題をややこしくしているのは、遺伝子の定義が曖昧で、しかも変化することにある。かつてはタンパク質をコードする配列を「遺伝子」と見なしてきたが、その後、ノンコーディングRNA分子にも細胞内で重要な役割を担うものがあることが明らかになった。どちらを重要視するか、そして遺伝子と見なすべきものはどれなのか、という判断は意見の分かれるところであり、Salzbergらの集計が他と食い違う理由も、これによって部分的に説明できるだろう。

全ヒト遺伝子の正確な数を割り出すことは、遺伝子と疾患の関連を明らかにする取り組みにとってカギとなる。遺伝子と見なされていない領域は、その中に疾患の原因となる変異が存在していたとしても無視されてしまうことが多い、というのがSalzbergの主張だ。しかし、研究の基盤となるマスターリストに軽率に追加された遺伝子もまたリスクとなり得ると、Frankishは指摘する。遺伝学者たちが誤った遺伝子に振り回され、彼らの注意が本来問題とすべき事柄から逸れてしまうかもしれないためだ。

それでもやはり、データベース間で見られる遺伝子数の不一致は、研究者にとって解決の難しい問題だと、Pruittは言う。「人々は唯一の答えを求めたがるものですが、生物学は複雑なのです」。

翻訳:山崎泰豊

Nature ダイジェスト Vol. 15 No. 9

DOI: 10.1038/ndigest.2018.180914

原文

New human gene tally reignites debate
  • Nature (2018-06-21) | DOI: 10.1038/d41586-018-05462-w
  • Cassandra Willyard

参考文献

  1. Pertea, M. et al. Preprint at BioRxiv at https://doi.org/10.1101/332825 (2018).