Japanese Author

RNA転写を網羅的に解析するCAGE法が、エンコード計画で貢献!

–– エンコード計画とは、どのようなプロジェクトなのでしょう?

カルニンチ: エンコードとは「The Encyclopedia Of DNA Elements(ENCODE)」の略称で、2003年に、米国のNIHを中心とする世界5か国(米国、スペイン、英国、日本、シンガポール)からなるコンソーシアムによって始動したプロジェクトです。文字どおり『ヒトDNAの百科事典』を作るべく、すでに解読されているヒトゲノムのデータ上に、遺伝子や遺伝子発現を調節するための領域、クロマチン構造、ヒストン修飾など、あらゆる機能要素を複合的にマッピングしようというものです。

まず、2006年までパイロットプロジェクトが行われました。ヒトゲノムの約1%を対象に、疾患や重要な生命現象と関連を持つ44の領域が選び出され、「遺伝子の転写開始を促すプロモーター配列の同定」「DNAに結合することで何らかの遺伝子調節機能を果たすタンパク質の探索」といった解析が集中的に進められました。その結果、すでに私たち理研が報告していたように、ヒトゲノムの大半の領域がRNAに転写されており、その多くがタンパク質をコードしていないことが証明されました。それまでの「ゲノムの98%がガラクタで、機能を持たない」とする学説を完全に否定する成果だと言えます。その後、対象がヒトゲノムの全領域に拡大され、本格的なプロジェクトが始まりました。今回の報告はフェーズ2による成果で、32の研究所と442人の研究者が、リンパ球系細胞やHela細胞などの147種の培養細胞を対象に解析したものです1,2

–– 今回の最大の成果は?

カルニンチ: ゲノムの約80%もの領域に、何らかの生化学的な機能があるとわかったことです1,2。ガラクタとされていた部分に、タンパク質が結合して特定の遺伝子発現を制御する機能、細胞質で働くncRNA(non-coding RNA)を生成する機能、エピゲノムにかかわる機能などがあることが、より明確にされました。

CAGE法でエンコード計画に貢献

–– 理化学研究所がプロジェクトに参画された理由は?

カルニンチ: 理化学研究所オミックス基盤研究領域(理研OSC)が、世界で唯一、遺伝子の転写開始点をゲノムワイドに解析し、そこから転写されるRNAを定量的に調べるCAGE法という手法を開発しているからです。一般的なRNAだけでなく、先端にポリA領域を持たないものも解析可能です。また、ナノCAGE法という新たな手法も開発しており、染色体に結合する数ナノグラムオーダーのわずかなRNAでも解析することができます。

図1:転写因子の結合パターンから転写活性を推定するモデル。横軸は、主なDNAへの転写因子の結合パターンからの転写量の推定データ。縦軸は、CAGE法による転写量の実測値。両者の間に相関が見られたことから、転写因子とDNAの結合パターンから転写量を推定することが可能であることがわかった。

理研はフェーズ1から参画し、今回のフェーズ2ではBリンパ芽球様細胞などの15種のヒト由来細胞のRNAを解析しました。膨大な数に及ぶRNAを、「核内で働くのもの」「細胞質で働くもの」「200塩基以上の長いもの」「200塩基以下の短いもの」「タンパク質をコードしているもの」「コードしていないもの」などに細かく分類したうえで、その塩基配列、転写開始点、転写量などを調べました。

さらに、私たちは19の研究機関と協力し、私たちのデータと、ほかの研究機関によるヒストン修飾、転写因子結合、プロモーターやエンハンサーの活性などのデータとを統合することで、「ヒストン修飾や転写因子結合の有無と、転写活性の関係を予測するモデル」を構築することにも成功しました。

–– 大きなプロジェクトならではのご苦労もあったのでは?

カルニンチ: はい、世界中から集まったデータを統合し、1本の論文としてまとめるのは、たいへんな作業でした。各機関の代表がNIHやスタンフォード大学に計6回集まり、10人以上からなる電話会議を毎週のように行いました。公式発表によると、電話会議は600回以上に及んだようです。

得られたデータは必ず一定期間内にデータセンターに入れ、その意味を報告するルールでした。今回の論文は3年前から書き始めましたが、その後もデータが更新され続け、内容がなかなかまとまりませんでした。最終的に、データの更新は、昨年1月の時点で凍結されました。

図2:エンハンサー領域近傍のRNA発現パターン。エンハンサーとは、転写効率を高める領域のことで、各グラフ横軸はエンハンサー中心部からの相対的な距離、縦軸は転写量を示す。赤はセンス鎖からの発現を、青はアンチセンス鎖からの発現を示す。上と下はシークエンスによるRNAの発現量を、中段はCAGEによるRNAの発現量を示す。いずれも、エンハンサーの中心(ポジション0)に近いほど発現が活性化されていると考えられ、RNAの転写量も増えている。特に、転写開始点のRNA発現量を表すCAGEデータはエンハンサーの中心部で急激に発現量が増えるパターンを示しており、エンハンサー領域のマーカーとして使えることがわかった。

–– エンコード計画は今後も続けられるのでしょうか?

カルニンチ: 続く予定ですが、予算が50%削減され、私たちがやろうと考えていたプロジェクトはカットされてしまいました。世界中の研究機関が影響を受けている状態です。

一方で、ヒトではなく、マウスのエンコード計画が考えられているようです。マウスは同じ系統を使えば、培養細胞ではなく生体ベースで解析できますし、遺伝学手法での解析も容易です。安価なので予算的にも無理がありません。

エンコード計画にかかわらず、私が必要だと思うのは、バイオインフォマティクスの手法開発です。各国では、SNPs(一塩基多型)解析、がんなどの疾患ターゲットを設けたプロジェクトが進んでいますが、いずれにおいてもデータをどう解釈するかがカギを握ることになります。

FANTOMプロジェクトとの関係

–– 理研OSCではFANTOMプロジェクトも進んでいますね。

カルニンチ: はい、そのとおりです。理研では、マウスのさまざまな組織から網羅的に単離したRNAを完全長cDNAに変換したうえでクローン化し、配列決定を行う「マウスcDNA百科事典プロジェクト」を完了しています。この成果を受け、2000年から、遺伝子の機能、転写因子の同定、転写因子ネットワークなどを明らかにするプロジェクト(FANTOM)を進めてきました。

これまでに私たちは、FANTOM3の成果として世界に先駆けて、「全ゲノムの70%以上がRNAとして転写されていること、その大半がタンパク質をコードしないncRNAであること」を報告しています3

現在は、FANTOM5として、生体の細胞に近い初代培養細胞、神経細胞などの特殊な細胞を対象にした転写ネットワーク解析が始まっています。

夢は、1細胞を対象とするCAGE法

–– CAGE法の改良点、先生の次の課題は?

カルニンチ: 現在のCAGE法は誰でも使えるほど簡便ではありません。ごく最近、シンガポール、欧州のいくつかのグループが使っていると報告したようですが、技術的に難しい部分が残っています。汎用性のある技術に改良し、学術研究で広く使っていただけるようにしたいと考えています。また、1細胞を対象にできるCAGE法を開発したいと思っています。実現すれば、手術で切除した組織にがん幹細胞があるかどうか、といったことを容易に調べられるようになります。

具体的な研究としては、幹細胞における核内のncRNAの機能、ncRNAとエピゲノムとの関連の検討などに力を入れていきたいと考えています。ncRNAのルールブックも膨大な量に及ぶと思いますが、その1章分でも突き止められたら嬉しいと考えています。

–– ありがとうございました。

聞き手は西村尚子(サイエンスライター)。

Author Profile

Piero Carninci(ピエロ・カルニンチ)

イタリア出身。1989年、トリエステ大学で生物化学博士号を取得。1990年よりTALENT s.r.l で研究員を務め、1995年より理化学研究所ライフサイエンス筑波研究センターSTA フェロー、1997年より研究員。2003年より理化学研究所の中央研究所先任研究員とゲノム科学総合研究センター上級研究員を兼務。2008年より同横浜研究所オミックス基盤研究領域LSA 要素技術開発グループのプロジェクト副ディレクター、オミックス資源開発ユニットのユニットリーダー、ゲノム機能研究チームのチームリーダーを兼任。

Piero Carninci氏

Nature ダイジェスト Vol. 9 No. 12

DOI: 10.1038/ndigest.2012.121217

参考文献

  1. The ENCODE Project Consortium Nature 489, 57-74 (2012).
  2. Djebali S. et. al. Nature 489, 101-108 (2012).
  3. Carninci P. et al. Science 309, 1559-1563 (2005).