Japanese Author

誰もが“バイオインフォマティシャン”の時代

インターネット上の情報やツールを使った遺伝子検索や配列解析など、生命科学分野では研究者や医療従事者によるビッグデータの活用が重要になってきた。そのときに役立つのが、バイオインフォマティクス（生物情報学）の基礎知識。だが日本では教育が遅れ気味だ。バイオインフォマティクス分野の草分け的存在の4人に、バイオインフォマティシャンの仕事や役割、この分野の展望を語ってもらった。

**NGSを使ったゲノム解析研究におけるバイオインフォマティシャンの仕事**
**データ解析をする**
ゲノムDNA試料をNGS（次世代シーケンサー）で読むと、データが出力される。これを解析する（❷と❸）。［アッセンブリ/マッピング］❷現在主流のNGSでは、DNAを短い断片に切ってから読むため、データを元のDNAの順番にそろえることが必要（新規のゲノム解読の場合はアッセンブリ。参照ゲノム配列が公開済みのときはマッピング）。作業はある程度自動化（パイプライン化）も可能。［アノテーション］❸順序が分かったデータの意味を解釈する。定法はなく、データベースを利用して同種や近縁種と比較したり、遺伝子機能を調べたりし、トライ&エラーで答えを導き出す。
**解析ツール（ソフトウェア）を作る**
アルゴリズム（計算方法）作りと、プログラミング（実装）の仕事がある。解析ツールは公開されていることが多い。
**データベースを作る**
データベースを構築し、データを格納する。検索エンジンなどを作る仕事もある。データの品質管理作業はキュレーションという。
Thinkstock

–– データサイエンスという言葉をよく耳にします。

仲里：ビッグデータが注目されているからでしょうが、それについては、生命科学分野がはるかに先行してきたと思います。大量のデータを処理解析する技術は、2000年前後のゲノムプロジェクトの頃から、バイオインフォマティクスとして発達してきたのですから。

–– バイオインフォマティクスは、データサイエンスの先駆者なのですね。

坊農：そうですね。コンピューターやインターネットを利用して大量のデータを処理し、問題を解決するという点では両者は同じです。データの解析だけでなく、データの保管･品質管理なども含まれています。

バイオインフォマティクスは最初、大量にシーケンス（塩基配列解読）されるゲノム配列データを解析するための実践的な手法として発達しました。その後、遺伝子の機能やタンパク質の構造解析、システム生物学のシミュレーション、画像解析、医療、創薬などの分野でも使われて発展し、現在に至っています。

ゲノム研究におけるバイオインフォマティシャンの役割

–– バイオインフォマティシャンの仕事を具体的に教えてください。

一同：ここに集まった4人は皆ゲノムや遺伝子を扱っています。近年、次世代シーケンサー（NGS）の登場により、ゲノムデータの応用範囲が、病気の診断、腸内微生物、生物分類などさまざまな分野に急速に拡大しているので、NGSを用いたゲノム解析の例を図示しました。

シーケンサーから出力された塩基配列データの「データ解析」、そのための「ツール（ソフトウエア）作り」、比較解析などに必要なデータを格納する「データベース作り」が、バイオインフォマティシャンの仕事です。

学生時代、周囲にデキるやつはたくさんいた。けれど、バイオインフォマティクスができたから生き残ることができたと思う中村保一

ツール作りには、「アルゴリズム（計算方法）の作成」と「プログラミング（実装）」の2つの作業があります。すでにたくさんのアルゴリズムが公開されているので、それらを組み合わせてプログラミングすれば、新しいツールがさまざまに作れます。

近年重要度を増してきたのが、データベース作り。大量に生産されるデータを収集し、他の研究者がインターネットを通じて利用できるようにすることの必要性が増しています。

–– 実際、皆さんは現在、データベースの仕事をされていますね。

粕川： 2013年より、理化学研究所の研究者のためにデータベース開発に携わっています。

中村：僕は2009年より、「DDBJ（日本のDNAデータバンク）」の仕事をしています。DDBJは、「DDBJ/EMBL/GenBank国際塩基配列データベース」として、塩基配列を収集･査定し、公開している公共データベースです。

坊農：仲里と僕は、DBCLS（ライフサイエンス統合データベースセンター）に所属して、データベースを利用しやすくするための情報サイトを作ったり、使い方の講習会の開催やチュートリアルムービーの作成を行ったりしています。生命科学の分野にはさまざまなデータベースやツールが存在し、自分に必要なものを見つけるのは簡単ではないからです。

データベースの質が解析に影響する

–– データベースは、研究に有用なビッグデータなのですね。

中村： NGSのデータ解析だけでなく、さまざまな生物学の問題を解く上で、公共データベースの利用価値は高いです。僕たちは、その有用性をさらに高めるために、キュレーション（情報の収集･整理）という仕事もしています。例えば、遺伝子の機能を解析した論文をインターネット上で見つけ出し、検証してからゲノムデータに情報を貼りつけるという作業を行います。質の悪いデータが増えると、データベースの価値が下がってしまうからです。最近では、モデル生物であるラン藻と根粒菌のゲノムデータベースのキュレーションを行いました¹。

坊農：僕は、教育･啓蒙活動の一環として、共同研究者のデータ解析を実際に手がけることもありますが、やはり、質の悪いデータが含まれていると解析の計算が途中で止まってしまうので困ります。そうしたことへの対処法を知ることも大切ですね。最近、パーキンソン病様のカイコの遺伝子発現を解析したのですが²、そう実感しました。

これからは、生物学者自身がデータ解析する時代なんです坊農秀雅

仲里：データベースを使いやすくする工夫も大事なことだと思います。中村さんたちはNGSの塩基配列を登録する「SRA（DRA）」というデータベースを作っていますが、僕たちは、それを利用するための検索エンジンを作りました³。先日、欧州で開催された生物情報学の国際学会でその検索エンジンについて研究発表をしたところ、たくさんのユーザーから反響がありました。世界中でたくさんの人が利用してくれていることを実感し、喜んでいます。

–– ところで、データベースに公開された配列データを主体に解析することでも、新しい発見ができるはずだが、そうした研究がまだ少ないとNature Genetics12月号のEditorial（社説）に書かれていましたが。

坊農：現時点においては、優秀な人は自分たちの生産したデータの解析だけで手いっぱい。残念ながら、そうしたことにまで手が回らないのが実情でしょうね。公開データの使用は、自分のデータを解析する際の参照用にすぎないでしょう。

中村：他人の生産したデータを解析するときに問題なのは、必要なメタデータが足りないことです。メタデータとは、何を目的に実験をし、DNA試料をどのように用意して測定したかといった説明書。登録者にとってメタデータを書くのは確かに大変なのですが、これは非常にもったいないことです。僕は、2014年にNature Publishing Groupから創刊されたScientific Dataの編集委員を務めていますが、これは、データとメタデータをセットで掲載して公開するという学術誌です。他にも、こうした試みをしている学術誌にGiga Scienceがあり、今後に期待しています。

坊農：最近、一部の企業などがデータを公開せずに、囲い込む動きが見られるのですが、それはサイエンスの発達を損なうと懸念しています。

バイオインフォマティシャンから、生物学の発見を導きたい粕川雄也

データ解析は、生物学者自身がやる時代に

–– バイオインフォマティシャンになるにはどうしたらいいのでしょうか。

仲里：僕の場合は、生物学の実験に挫折してバイオインフォマティクスの分野に来たのですが（笑）。中村さんや坊農さんも、自身を、バイオインフォマティクスの実践的な解析や計算原理を知っている生物学者と考えているのでは？

中村&坊農：生物学の問題を情報学の技術を使って解いているので、生物学と情報学の両方を知っていることが大切だと思っています。生物学については、遺伝子やタンパク質の知識や解析対象の生物の特徴を知っていることが極めて重要です。

情報学としては、実践としてのプログラミング技術やR言語などで解析プラットフォームを作れることと、それを動かすためのUNIXの知識、あとは原理としての統計学や機械学習の知識が含まれます。

中村：東京大学、長浜バイオ大学などには講座もできています。

粕川：僕は大学で情報学を学びましたが、情報系出身の人がバイオインフォマティクスの分野に入るには2つの壁があると仲間から聞きます。「生物学の壁」と「給料の壁」。生物学を学ぶ大変さの割りに、給料は高くないということです。

仲里：現実には、バイオインフォマティクスの専門家を長期に雇えるポストが、世の中にそれほどたくさんあるようにも思えない。まして、情報学だけでバイオ系で生き残るのは厳しいのではないでしょうか。

坊農：粕川さんは生物学の知識をどのようにして身につけたのですか。

粕川： 1つの研究所でさまざまな研究室のデータ解析を担当する、という経験を積んできました。解析を依頼してくる相手がどんなことを求めているのかを理解しようとする過程で、それぞれの研究分野の知識を身につけることができました⁴。僕は、いろいろな研究テーマの問題を解決していくのが楽しくて仕方なかったですし、それで勉強もできて、人の役にも立てる。やりがいがある仕事だと感じました。

2013年から自分で研究室を持つことになり、今は、バイオインフォマティシャンが研究のイニシアチブをとって発見を導くにはどうしたらいいかも考えていますよ。

–– バイオインフォマティシャンが不足しているといわれることが多いようですが。

坊農：バイオインフォマティクス技術のかなりの部分は、すでに、生物学者自身がやる時代になっているのではないでしょうか。特に、データ解析はそういえるでしょう。もちろん、大規模な新規プロジェクトや難度の高いデータ解析には、僕たちのような専門家が必要になると思いますが。NGSはしなくても、データ検索や、データベースからデータを得て解析するといった作業は、もはやほとんどのラボに必須のことと思います。バイオ系の研究室だけでなく、医療分野などでも。

ですから、専門家に頼るのではなく、生物学者が、基本的なバイオインフォマティクス技術を使いこなせるようにならなくてはいけないのだと思いますよ。

自分の研究用に検索エンジンを作ったら、世界中のユーザーから反響があった。大勢の役に立ててうれしかった仲里猛留

中村：そういう生物学者ならば、現在、引く手あまたと思います。

実は、僕自身がそうでした。1995年頃、大学院生のときに、教授が持っていたワークステーションをいじってUNIXを独習しました。コンピューターが得意だったわけでもないけれど、ちょうどWorld Wide Web（WWW）が始まった頃でしたので、世界が動き出しているのが感じられ、おもしろくて夢中になりました。そして1996年、ラン藻のゲノム解読に参加できて……。

僕の周囲にはデキるやつがいっぱいいたけれど、バイオインフォマティクスの技術が差をつけたと思います。それは、現在でもいえることです。

坊農：僕も中村さんと同じように、教科書も何もない時代に原著論文をひもといて独習したけれど、今は、学ぶ場所がたくさんあります。BLASTなどの解析ツールが出力するスコアの意味や原理くらいは知っていてほしいですね。それが分からないと、生物学者として、データの解釈ができないんですよね。

仲里：先ほど触れたように、僕と坊農さんはデータ解析のアドバイスをする講習会も開いています。例えば、2014年9月に東京大学で開催され、僕たちも講師を務めた「バイオインフォマティクス人材育成カリキュラム（NGS）速習コース」では、定員をはるかに超える応募がありました。学びたいという生物学者や医療従事者がすでにとても多いことも実感しています。

坊農：遺伝子診療学会では2015年より、医療従事者に対して、遺伝情報のデータ検索などが行えるエキスパートの資格認定試験を開始する計画だと聞いています。その講習会には、医師や臨床検査技師などが多数応募しているとのことです。

バイオインフォマティクスがさまざまなフィールドに浸透し、それぞれの専門家が基礎的知識や技術を身につけようと意欲を燃やしているのが感じられます。誰もが“バイオインフォマティシャン”であることが求められ始めているのでしょう。

–– ありがとうございました。

聞き手は、藤川良子（サイエンスライター）。

Author Profile

中村保一（なかむら・やすかず）

国立遺伝学研究所生命情報研究センター大量遺伝情報研究室教授。Scientific Data編集委員、博士（理学）。1991年京都大学農学研究科修士課程修了後、総合研究大学院大学（国立遺伝学研究所）在学中にUNIXを独習。1996年よりかずさDNA研究所研究員、室長を経て、2009年より現職。DDBJデータベースの登録業務･開発･品質管理を行う。ラン藻ゲノムをはじめ、植物のゲノム解読（アッセンブリ）の経験豊富。

坊農秀雅（ぼうの・ひでまさ）

ライフサイエンス統合データベースセンター（DBCLS）特任准教授。博士（理学）。東京大学でウェットの実験を学んだ後、1995年より京都大学の金久實研究室在学中にバイオインフォマティクスを習得。2000年、理化学研究所研究員としてFANTOMプロジェクトに参加し、マウス遺伝子のアノテーションを行う。2003年より埼玉医科大学ゲノム医学研究センターで助手（のち准教授）としてモデル生物による疾患モデル化研究も行う。2007年より現職。データベース利用技術の普及活動と研究活動を行う。

粕川雄也（かすかわ・たけや）

理化学研究所ライフサイエンス技術基盤研究センター機能性ゲノム解析部門大容量データ管理技術開発ユニットユニットリーダー。博士（情報科学）。1998年大阪大学基礎工学研究科博士課程修了後、同研究科助手、NTTソフトウェア、理研研究員を経て、2013年より現職。2000年には、理研のFANTOMプロジェクトに参加し、マウスゲノムのアノテーションを行う。その後、遺伝子発現研究のデータ解析部門で経験を積む。現在は、理研のデータベース開発と研究を行う。

仲里猛留（なかざと・たける）

ライフサイエンス統合データベースセンター特任助教。博士（情報科学）。東京工業大学の学部･修士課程にて魚類の遺伝子研究を行い、2002年修了。同年、NECバイオIT事業推進センターに入社し、遺伝子発現データの解析用ソフトの開発を行う。2007年同部門の解体に伴い、現職に転職。2008年大阪大学情報科学研究科にて博士号取得。最近は、公共データベース中のNGSデータを検索するウェブサービスを作成。研究活動も行う。

Nature ダイジェスト Vol. 12 No. 1

DOI: 10.1038/ndigest.2015.150122

参考文献

Fujisawa, T. et al. Nucleic Acids Res. 42 (Database issue): D666-670 (2014).
Tabunoki, H. et al. PLoS One 8 (7): e69130 (2013).
Nakazato, T. et al. PLoS One 8 (10): e77910 (2013).
Kasukawa, T. et al. PLoS One 6 (8): e23228 (2011).