Presentation by Susanna-Assunta Sansone

「データを再利用」する時代──Scientific Data が切り開くブックマーク

Susanna-Assunta Sansone, PhD

日時:2014年6月25日(水)
会場:理化学研究所 横浜事業所

2014年5月に創刊されたScientific Data は、データが主役のオープンアクセスジャーナル。高品質のデータを紹介し、他の人による再利用を促進するのだ。来日した名誉アカデミックエディターの Susanna Sansone 博士は、「科学の新しい時代を作るのが、このジャーナルの使命」と語る。それは、どんな時代のだろう。

Susanna-Assunta Sansone

オックスフォード大学のeリサーチセンター副所長である Susanna Sansone 博士が2014年6月に来日し、理化学研究所でセミナーを開いた。彼女は、2014年5月にネイチャー・パブリッシング・グループより創刊されたScientific Data の名誉アカデミックエディターでもあり、このユニークなジャーナルを今なぜ世に送り出したのか、セミナーで詳しく語った。

そのジャーナルは、科学的な「発見」を掲載するものではない。そのような発見に使用するための「データ」を扱うジャーナルだという。データのための専門誌が必要とされる背景には、データの再利用を期待する世界の科学界の大きな潮流がある。

「計測機器の性能が上がった結果、データの作成される速度が増し、それを理解する速度が追いつかないのが現代である」と、セミナーに参加した粕川雄也博士(理研ライフサイエンス技術基盤研究センター ユニットリーダー)は語っている。おそらくこの言葉が、このジャーナルが誕生した一つの背景を言い当てているのだろう。そして、多くの専門家が指摘するように、データ作成者以外の研究者にもデータを再利用してもらい、新たな、あるいはより多くの「発見」を引きだそうという考えが生まれた。公的資金が投じられた研究で得られたデータを、より有効に活用しようという英国や米国などの政府機関の考えも、これを後押しする。ゲノム配列データを例にとると、わかりやすいだろう。すでにかなりのデータが公開されている。

だが、「データを公開するだけでは不十分」と、Sansone博士は強調する。そのデータが、どのような実験条件の下、どのような実験手法で作成されたのかといった、データ入手に関する詳細な説明がないと、そのデータは使えないに等しいからだ。Scientific Data が誕生した理由は、そこにある。データが作られた過程に関するそうした情報、すなわち、データの解説(「メタデータ」と呼ばれる)を掲載し、データを利用可能なものとするためのジャーナルこそ、Scientific Data なのである。Scientific Data は、データそのものは保持しない。投稿者には、各分野のコミュニティーに認知されたデータレポジトリにデータセットを登録してもらう。適切なデータレポジトリが存在しない場合には、Data Dryadfigshare といった汎用のレポジトリが推薦される。

「メタデータ」をいかに標準化するか

Scientific Data では、「Data Descriptor(以下、DD)」という出版形式で発表される。DDは、元々はコンピューター用語。「データ記述子」と訳されることもあり、データの属性を表などの要素で示したものと説明される。Scientific Data のDDは、大きく2つの要素で構成されている。1つは文章による記述。タイトル、アブストラクト、背景、データ所蔵場所、データ取得方法、データの品質を示す技術的分析などを、一般の論文のように文章で説明する。ただし、「結果」や「ディスカッション」は含まれていない。そして、査読で問われるポイントは、科学的な発見や仮説の新規性などではなく、その実験がいかに厳密に行われ、データが高品質で再利用に適しているか、なのである。

DDのもう1つの構成要素は、コンピューター処理可能な構造化された形式に、実験デザイン情報【表】を落とし込んだ記載である。そのためのファイル形式として、「ISA-Tab」形式が採用されている。こう聞くと、情報学に不慣れな人は戸惑い、あるいはひるむかもしれない。しかし、心配は無用。「投稿者は、たんにexcel形式のテンプレートに書き込むだけでもよい」と、Scientific Data 創刊時にDD(「雄性ラット臓器miRNAアトラスScientific Data 1 Article number: 140005 doi: 10.1038/sdata.2014.5 27 May 2014)を発表した上原健城博士(塩野義製薬株式会社)が教えてくれた。さらに安心なのは、Scientific Data で情報の品質管理を行うキュレーターが、記載する内容を確認し、アドバイスを与えてもくれることだ。

DDの実験デザイン情報の例として、上原氏の「雄性ラット臓器miRNAアトラス」に掲載されているエクセルデータより、一部を抜粋。ラット、臓器など、動物実験に関する情報がまとめられている。 | 拡大する

メタデータの記載を、いかにわかりやすく整理し、標準化するかが、このジャーナルの最重要課題である。それには、用語を標準化し、同じ言葉は同じ事柄を示すようにしなければならない。そうすれば、メタデータの検索も可能になり、また、他のシステムでメタデータを読み込んだり、編集・加工したりできるようになって、多くの人へ再利用が広がっていくからだ。Sansone博士たちはScientific Data の創刊までに2年の準備期間を費やしたが、博士は、「こうした標準化は、ジャーナルが今後発行を重ねていくなかで、コミュニティーと相互作用しつつ、さらに充実が図られるだろう」と語った。

データと研究を別々に発表する

Scientific Data は、必要なデータの発見・再利用を促進するために存在するので、そのデータを用いた研究論文は、当然他誌に発表することが可能だ。データをScientific Data に、研究論文は他誌にと、分けて同時に発表することもできる。「投稿者の要求があれば、他誌に投稿中の研究論文の進行状況に応じて、Scientific Data の出版時期を遅らせることも可能」と Sansone 博士は付け加える。

前述の上原博士に尋ねてみると、Scientific Data に発表したデータを分析した研究成果は、現在、毒性学のジャーナルに投稿中だという。この論文中でのデータや実験方法の記載は、「Scientific Data 参照」とすればよく、「とても簡単に済んだ」とのこと。「今回は複数の企業が参加した研究プロジェクトで、実験データの取得は厳しく品質管理されていた。Scientific Data で発表することによって、毒性学の枠を超えて、より広範な分野の人々に認知され、利用されるだろうから、楽しみだ」(上原氏)。Scientific Data がなければ、毒性学の分野だけでのデータベース登録・論文発表にとどまっていたかもしれないという。

情報解析を専門とする粕川博士は、「運悪く、データから思ったような“発見”が得られなかったときでも、Scientific Data によって、他の研究者へ別の“発見”をするチャンスを提供でき、データ自体が成果になる利点は大きい」と、データ作成者の思いを語る。今までは、そういったときには、データは公開されず、「死蔵」されてしまうことが多かったそうだ。また、メタデータを用意することにインセンティブが与えられるので、「従来の論文ではおろそかになりがちな実験データの入手方法や詳細説明の記載が充実し、情報系にも実験系研究者にも大きなメリットとなるはず」と評価する。

なお本記事の執筆時点では、Scientific Data は PubMed で検索できないが、今後検索可能となるように準備中であることを付け加えておく。

新しいジャーナルの挑戦

Scientific Data が扱う科学分野は、当面、生命科学、生物医学、環境科学に絞られている。データのオープン・アクセスを促進する動きは世界的に高まっているが、それに対する各研究者の反応は分野によって大きく異なり、現時点では当然ながら賛否両論がある。

今回の Sansone 博士のセミナーを準備したピエロ・カルニンチ博士(理研ライフサイエンス技術基盤研究センター 副センター長)は、Scientific Data の編集諮問委員でもあるが、「ゲノム科学分野であれば、このジャーナルのありがたみがすぐにわかる研究者が多いだろう」と語る。他の研究者のデータの所蔵先が見つからなかったり、実験条件が不明瞭だったりすることに頻繁に遭遇し、困惑する経験が多いからだという。だが、分野や研究によっては、オープン・アクセスの適・不適もあるだろうから、「私たちも慎重な態度が必要だと思う」と Sansone 博士は付け加えた。

最後に、環境科学や動植物学などの分野では、シチズン・サイエンスへの貢献という意味でも、Scientific Data の役割が期待されることに触れておきたい。例えば、ダイバーが各地のサンゴの写真を撮影して研究者に送り、環境のモニタリングに協力するプログラムがある(「Reef Life Surveyプログラムによるサンゴ礁の魚類群集の系統的全球的評価Scientific Data 1, Article number: 140007 doi:10.1038/sdata.2014.7)。あるいは、子どもたちがチョウの写真を撮影して博物館に送り、チョウの分布状況のモニタリングに参加するような活動がある。こういった市民参加型調査は、世界的に精力的に行われており、こうした活動をシチズン・サイエンスと呼ぶ。データの作成者と利用可能なデータを紹介していくことで、「私たちのジャーナルは、こういう活動に光を当てることができる」と、Sansone 博士は言葉を強めた。

シチズン・サイエンスだけでなく、現在Scientific Data にはすでに多様なデータが発表されている。内容は神経科学、生態学、疫学、環境科学、機能ゲノミクス、メタボロミクス、毒性学などの多岐にわたり、新規のデータから既出のデータの再編まで、アカデミックの世界から産業界、そしてシチズン・サイエンスの研究による単独のデータセットからデータの総覧までが含まれている。Scientific Data は研究者にとって、発見のための宝の宝庫となっていくのだろう。

Sansone 博士は、「私たちのジャーナルはまだスタートしたばかり。これからの展開が楽しみだ」と、取材中に何度も繰り返した。課題にぶつかるたびにそれを解決してきたという過程を背景に、このジャーナルはデータ再利用の時代の開拓者である、という意気込みが伝わってきた。

サイエンスライター 藤川良子

プライバシーマーク制度