Scientific Data ブログ

#scidata16:オープンデータに門戸を開くブックマーク

Opening doors to open data at #scidata16

30 Nov 2016

オープンデータを採用したいが何から始めればいいのかわからない? ツールはすぐそこにあります。
―Matthew Edmonds

Publishing Better Science through Better Data(#scidata16)会議がロンドンのウェルカム・コレクションで開催された。Scientific Data 誌、Springer Nature、Wellcome Trustが主催する1日限りのイベントは、オープンデータの時代を迎えた今、若手研究者が直面している課題を探るものだった。

データに関して初心者の私は、全く見当がつかないまま会場に入った。私が携わっている実験から生成されるデータといえば、単純な統計的検証を要し、論文原稿上はひとつのグラフで要約できるような小規模データセットのみである。元データでさえ、共有ドライブに長い間放置しても安全である。

と、私は思っていた。会議が進むにつれ、どんな実験であろうと、大半のデータ課題はすべての実験に当てはまることが分かってきた。私はこれまで、他の研究者たちがどのように私のデータにアクセスし、読み、理解し、利用し、再現性を確認しているかなど、考えたことがなかった。現在は、大半の科学ジャーナルが論文本文以外にも未加工データや分析手法の公表を求める時代なのだ。幸運にも、これらの問題に対する新たな解決策が、昼食後のライトニングトークで紹介された。

研究成果のなかには公表に至るまで数年を要するものがあれば、「誤った論証」とか「不適切」であるとみなされたために、全く日の目をみないものもある。例えば、全く影響力のない実験的操作はジャーナルに論文として取り上げられないことがある。このような傾向に疑問を投げかけるために、Rachel Harding博士は、「ラボ走り書き(Lab Scribbles)」ブログを通じて、準リアルタイムで自分の研究成果の共有を開始した。Harding博士は、ハンチントン病に関する自分の研究についてミニレポートを作成し、使用するデータをレポジトリ(Zenodo)に保存している(これによりすべてのデータセットの引用が可能となる)。このアプローチは、博士自身のみならず同じ研究に携わる仲間にも幅広くメリットをもたらしている。すなわち、最新データを閲覧するのに何カ月も待つ必要がなくなり、論文の発表前に改善点や協働作業を提案できる。Harding博士のラボ記録は、これまで95か国で2万回以上も閲覧されている。果たして自分の実験記録は何人が読んでいるだろうか?

もちろん、他者のラボ記録を理解するのは容易ではない。Open Knowledge InternationalのJo Barratt氏は、「摩擦のないデータ(Frictionless Data)」という概念を導入している。データの共有・読込・利用の容易性を高めるために、データを単純で数も少ない基準規格にパッケージ化するという考え方だ。Barratt氏のチームが提供するツールのひとつ「グッドテーブルズ(Goodtables)」は、表形式データの検証を迅速化するものだ(このツールは公開されており、誰でもここで検証できる)。ひとつの表と、変数や制限事項(「整数のみ」など)を定義するスキーマをひとつアップロードすると、エラー箇所があればフラグで示してくれるため、分析の核心に取りかかる前にデータを検証できる。

一方極めて難しい解析もある。例えば、大半の科学分野で重要となる画像処理などだ。各分野の研究目標により、分野特有の問題が発生する。例えば、ナノマテリアル分野の研究では、電子線トモグラフィーが使用されることがある。電子線トモグラフィーは3次元解析を可能とするが、データを画像にレンダリングする必要がある技術だ。データを理解するためには可視化が欠かせないが、可視化を大きく左右するのは各研究者の選好だ(どんな選好かと言われても、文書では説明できない)。この問題の解決を目指し、ミシガン大学のRobert Hovden博士が開発したのが未加工データと操作過程を一か所に統合するtomvizである。これは、同分野の他者にデータからモデルまでのパイプラインを表示するツールだ。Hovden博士は、これをOSの種類に関係なく利用できる公開ソースとして提供している。類似したデータセットなら利用できない理由はないと、博士は言う。

これと対照的に、神経画像のデータセットは、神経細胞の全ネットワークに関連する出力データを提供するために莫大な、全脳レベルまでの演算処理能力が必要となる。このようなコンピュータ処理能力を研究者は個人レベルでは持てない。所属機関にあっても好き勝手に使用できないし、番が回ってくるまで待つ必要がある。この課題に対し、モントリオール神経学研究所(Montréal Neurological Institute)は奮起して、誰でもアクセスできる公開リソースを作成した。データレポジトリ (LORIS) から高性能コンピュータ処理 (CBRAIN)に至るまでの全プロセスを対象としたこのリソースの強みは、「欧州ヒト脳プロジェクト(Human Brain Project)」などの多国籍協働体制とも互換性を維持していることだ。

休眠状態の自分のハードドライブと私自身にとっての教訓はなんだろう? #scidata16に参加するまで、自分のデータを共有するなど真剣に考えたことがなかったが、このような態度はもはや弁解の余地がなくなりつつある。大きく広い世界に自分の情報をすべて放出するのは困難だと思うが、創造性に富んだ人々がそのプロセスを促進するツールを続々と開発している。私は今、これらのツールを活用して、自分のデータを公開するつもりだ。すべての人に役立てるために。

Matthew Edmonds氏は、英国バーミンガム大学の博士課程修了者であり、損傷したDNAを修復する機構に欠陥がある細胞がガンに成長する過程を研究している。Edmonds氏は、研究者が利用できるテクノロジーの変化の速度は驚異的だとし、変化に遅れまいと必死だという。Edmonds氏に遅れまいという人は、@benchmattでフォローできる。

「Publishing Better Science through Better Data 2016」では、サイトのスライドと動画へのアクセスを許可しています。また、当日の様子をまとめた映像も提供しています。イベントサイトを参照してください。

プライバシーマーク制度