News

オープンデータ化に向かうLHC

Nature ダイジェスト Vol. 11 No. 2 | doi : 10.1038/ndigest.2014.140208

原文:Nature (2013-11-28) | doi: 10.1038/503447a | LHC plans for open data future

Elizabeth Gibney

LHCで得られた膨大な量の実験データの管理方法について、研究者たちは頭を悩ませている。データだけでなく、実験に用いたソフトウエアなども保管しなければ、いずれはデータを解読できなくなってしまうからだ。そこで検討されているのが、データの公開だ。

ヒッグス粒子の崩壊データなど、CERNの大型ハドロン衝突型加速器(LHC)の実験データが公開される。

Credit: THOMAS MCCAULEY/LUCAS TAYLOR/CMS COLLECTION/CERN

スイスのジュネーブ近郊に位置する欧州原子核研究機構(CERN)の大型ハドロン衝突型加速器(LHC)を使った実験では、膨大な量のデータが生成する。LHCにはCMS、ATLAS、ALICE、LHCbの4つの実験用検出器があり、そこで収集される情報量は、毎年、約25ペタバイト(1ペタバイトは約1000兆バイト)に上る。

データの保管については問題はない。ハードドライブは今でも安価だし、価格はどんどん下がっていく。問題は、それぞれの実験に特有のソフトウエア、アルゴリズム、参照プロットなど、データほど一般的に保管されていない「知識」を保管することである。マルセイユ素粒子物理学センター(フランス)に所属し、高エネルギー物理学におけるデータ保管と長期分析に関する国際研究グループDPHEPのリーダーであるCristinel Diaconuは、これらの知識は、しばしば時間とともに劣化したり消滅したりすると言う。彼は、今の状態のままデータを保管していったら、10年後の物理学者がLHCのデータを解読しようとしても、ヒッグス粒子の発見を再現することはできない可能性があると懸念している。「LHCプログラムの終了後、この最先端分野では次のデータが出るまで何年も待たなければならないでしょう。だから、LHCのデータを失うわけにはいかないのです」とDiaconuは言う。

DPHEPは、データ保管の取り組みを、単なる貯蔵から、オープンシェアリングのシステムへと拡張しようとしている。彼らによると、実験データを理解しようとする人間が組織の外部に絶えず大勢いれば、データとそれを解釈するのに必要な知識が長期にわたって保管されやすくなるという。

この問題に対し、LHCのCMS実験グループに所属する物理学者Kati Lassila-Periniは、高校生へのデータ提供によって対処しようと考えている。2014年には、彼女がリーダーを務めるプロジェクトの予備テストとして、CMSの2010年の実験データが公開される。このデータは、IT科学センター(フィンランド・エスポー)が再フォーマットして保管する。その後、IT科学センターはこのデータを高校生と共有し、高校生は、一般向けに改変された分析ツールを利用して素粒子の崩壊のプロットを再現するのだ。CMSは、収集から2〜3年が経過したデータをさらに公開することを計画している。Lassila-Periniは、他のデータセンターでも同じような計画が採用されることを期待している。「共有することで、自分たちが見なくなった実験データをいつまでも使える状態に保つことができるのです」。

データ共有の目的は、子孫のためにデータを保存することだけにあるのではない。古いデータの山の中には、新しい理論の検証に利用できるものも含まれていて、新しい実験の基準とすることができるとDiaconuは言う。例えば、2012年にヒッグス粒子が発見される前には、大型電子-陽電子衝突型加速装置(LEP)で得られた1990年代の実験データが再び注目を集めた。LEPはLHCの前にCERNで使われていた加速器である。物理学者たちは、LEPのデータが収集された当時はまだ理論化されていなかった「エキゾチックなタイプのヒッグス粒子」が検出されていなかったかと、データを調べ直したのである。このように、データを生かしておきオープンにすることの目的は「賢明な利己主義」にあると、ノートルダム大学(米国インディアナ州)の物理学者で、DPHEPと同じ目標を掲げるDASPOSのリーダーであるMichael Hildrethは言う。DASPOSは、オープンサイエンスのためにデータとソフトウエアを保存する取り組みであり、米国国立科学財団(NSF;バージニア州アーリントン)から資金提供を受けている。

DASPOSはデータ保管のテンプレート、すなわち、保管すべき項目のチェックリストと保管方法を作成している。2014年には「データキュレーションの挑戦」として、テンプレートに従って収集した情報だけで、物理学者が他の実験結果を再現できるかどうかを確かめる予定だ。1つのテストは、ほぼ確実にLHCのデータを使ったものになるだろう。例えば、CMS実験の物理学者に、ライバルのATLAS実験の結果を再現してもらうのだ。もう1つのテストは、天体物理学など、別の分野のデータになる可能性がある。テストがうまくいけば、DASPOSのモデルは、データ保管のための一般的で簡便な構造様式になるかもしれないとHildrethは言う。

Hildrethらの挑戦には、絶えず変わっていくアルゴリズム、オペレーティングシステム、およびデータ分析用ハードウエアに対処することも含まれている。ドイツ電子シンクロトロン(DESY;ハンブルク)では、コンピューティング・コーディネーターのDavid Southが率いるチームが、DASPOSの方法でデータを保護しようと考えている。そのために彼のチームは、DESYのハドロン-電子リング加速器(HERA)実験のデータとソフトウエアを自動的に調べて、ハードウエアやオペレーティングシステムが変更されたときに互換性があるかどうかをテストするシステムを開発した。

実験データを新しいプラットフォームに移し変えるこの計画は、SLAC国立加速器研究所(米国カリフォルニア州メンロパーク)の検出器BaBarを使う実験のアプローチとは対照的である。BaBar実験では、各バージョンのデータとそれらを分析するのに必要なオペレーティングシステムが、それぞれ当時稼働していた状態のまま保管センターに置かれており、少なくとも2018年まではアクセス可能だ。Southによれば、DESYのアプローチの方が信頼性が高いと言う。DESYのシステムはモニタリングの手間がかかり、互換性がなくなった部分は人間が介入して都度修正しなければならない。つまり、問題が生じるたびにその場で解決していく方が、何年も放置して複雑化してしまった問題を解決するより楽に済むという考えである。

DESYの科学者は、それをよく分かっている。彼らは1990年代に、クォークどうしを結びつける強い相互作用について詳細に調べるために、1979年から1986年までDESYで行われていた衝突型加速器実験のデータをもう一度見ようとした。最終的に彼らは、より高い精度でクォーク間の相互作用を評価することに成功したが、Diaconuによると、適切に管理されていなかった実験データを復元するのに2年を要したという。

実験データの復元に要する時間や費用を考えれば、保管に費用を当てるべきだと訴える人々もいる。DPHEPのプロジェクト・マネジャーであるJamie Shiersは、保管にもそれなりに費用はかかるが、必要な金額は、全体の運用費用の1%前後、1年当たりほんの数百万ドルであると説明する。「それは正当な費用だと思います」と、彼は言う。

(翻訳:三枝小夜子)

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度