Scientific Data ブログ

#scidata16: オープンデータは難しくない

原文: 14 Dec 2016 #scidata16: Open data should be easy

データを共有しない理由は尽きない。しかし、もうこのような言い訳はやめ、しっかりと計画を立てるときだと、Atma Ivancevic氏は言う。

2016年10月26日の朝、科学者の一団がロンドンで会し、オープンデータの状況について討議した。第三回Publishing Better Science through Better Data (より良いデータに基づくより良いサイエンスの出版)会議は、モーニングティー、各国の出席者紹介、そして@roystoncartoonsからの怒りに満ちた書き込みで幕を開けた。会議の前置きは実にシンプルだった。議長のIain Hrynaszkiewicz氏は、「今日のテーマはオープンさを維持すること」とだけ告げた。我々が集まった目的は、データ共有により個人と科学界全般の双方が受けるメリットを知ることだった。

「オープンデータは難しくない」 と、ケンブリッジ大学のJenny Molloy博士はデータ管理計画を策定する重要性を説明しながら述べた。博士が取り出した一枚のポスターには、「黒いバックパッグを探している」とあった。「謝礼金を払います。私の博士号論文に欠かせない5年間の研究データが入っています!」 他の皆と一緒に笑い出した私は内心、バージョン管理システム(version control)に出会うまではこれと変わらぬ生活だったことを思い出した。

研究データ管理計画、必要ないとお考えですか?

Molloy博士は続けた。学生や若手研究者にとって、「大切なのは整理整頓である!」と。計画を念頭に行動することは、自分のデータを常に把握するのに役立つ。バックアップを取ることで、惨事を回避できる。早期に着手することで、科学者としての初期段階を最大限に活用するテクニックを磨くことができる。自分の持つデータをしっかりと把握し、適正に文書化してから、他者との共有を検討しなさい。

ここで次の質問が出た。「自分のデータを共有する必要があるのか?」

データをネット上で公開すれば、その科学分野に積極的に参加しているとみなされ、協働作業が生まれる。自分の研究をベースに他者が研究をさらに拡大すれば、自分の名前が頻繁に引用される。一部の研究機関ではオープンサイエンスを実践していることの証拠の提出を要請し始めている。最も重要なのは、ネット世界での存在感は、自己マーケティングに役立つことだ。堅牢でアクセス可能な研究を常時利用できる状態にしている科学者は、そのことだけで多くの分野でのポジションに就ける可能性が高まると言える。

Molloy博士の話には考えさせられた。その説明は確かに筋が通っている。しかし、そんなに簡単であれば、皆すでに自分のデータを共有しているはずなのに、なぜそうしないのか?世界規模の公開研究情報ハブの創設を阻むのは何か?

ビッグデータの管理には、多様な現実的問題が伴うのは当たり前だ。例えば、誰がオープンデータを管理するのか?学生はやがて卒業し、教授は担当科目が変わる。誰が後に残って、データを維持し、必要に応じて更新するのだろう。

専門分野によっては、生成されるデータの量そのものが新たな問題となる。NASAは毎日一時間ごとに、宇宙船から地球に送信される数ギガバイトのデータを収集する。素粒子物理学の大型ハドロン衝突型加速器(LHC)は、年間数ペタバイトの衝突データを生成する。しかも、データ収集率は増加し続けている。すなわち、ストレージ手法もこれに応じて進化する必要がある。Kevin Ashley博士は、データ・キュレーションを、アイゼンハワー大統領が戦争について述べたあの名言にたとえた。「計画それ自体に価値はないが、計画をするという過程は必要不可欠だ。」

その日も終わりかけるころ、私はふと気が付いた。我々は大きな課題の解決に着手するまでに至っていないことを。手法の説明が不十分、著者にデータの提供を拒否する権利がある、ジャーナルがオープンデータを義務付けていない、などの理由で、再現不可能な実験が出回っている。目の前の問題は、データそのものではなく、ヒト特有の怠け癖である。基本的に、この会議は研究者の成果を可能な限りオープンに交換すること、そしてオープンデータが科学界共通の慣行となるまで、他者にもそれを推奨することの必要性を説くものだった。

自分のデータを公開しよう。そうすることで、自分の認知度が高まり引用件数が増え、雇用チャンスも増える可能性がある。というのは期待しすぎだとしても、少なくとも自分とラボの作業効率は高まるはず。自分のためにデータ管理を進めた結果、この科学という世界で悪戦苦闘している他の研究者たちを、無私無欲に救っていたと気づいた暁には、喜びをかみしめよう。

Atma Ivancevic氏は、 数学者から転向した生物情報科学者で執筆活動に熱心。彼女は近々、オーストラリアのアデレード大学で、真核生物種間の飛び回る遺伝子の伝播を説明した博士号論文を提出する予定。趣味はテニス、読書、ビーチでの水泳。Twitter, ResearchGateGitHubでもフォロー可能。

「Publishing Better Science through Better Data 2016」では、サイトのスライドと動画へのアクセスを許可しています。また、当日の様子をまとめた映像も提供しています。イベントサイトを参照してください。

Scientific Data ブログ」記事一覧に戻る

プライバシーマーク制度