News

TOOLBOX: クラウドコンピューティング入門

Nature ダイジェスト Vol. 15 No. 12 | doi : 10.1038/ndigest.2018.181223

原文:Nature (2015-06-03) | doi: 10.1038/522115a | How to catch a cloud

Nadia Drake

科学者たちを引き付けているクラウドコンピューティング。その始め方について、経験者が助言する。

拡大する

ILLUSTRATION BY THE PROJECT TWINS

2015年2月、ブラウン大学(米国ロードアイランド州プロビデンス)のコンピューター科学者Mark Howisonは、24種のクダクラゲ(クラゲやサンゴと近縁の海洋動物)から抽出したRNAを分析する準備をしていた。けれども大学の高性能コンピューターはメンテナンスを終えたばかりで、その信頼度はまだ十分には回復していなかった。そこでHowisonはアマゾンのAmazon EC2を起動し、未使用の計算能力があるときに入札者に割安な価格で提供される「スポットインスタンス」に入札した。約2時間の調整の後、彼は自分のソフトウエアを走らせる仮想マシンを構成し、クダクラゲの塩基配列をアップロードした。分析は14時間後に終わり、費用は61ドル(約6700円)だった。

近年、インターネットを利用してアマゾン、グーグル、マイクロソフトなどの商用プロバイダーから計算資源を借りるHowisonのような研究者が増えている。それは、緊急時のバックアップのためだけではない。米国立科学財団(NSF;バージニア州アーリントン)の後援により2013年に作成された報告書で示されたように、クラウドは研究室に、他の方法では手が届かないような計算能力へのアクセスを提供しているからだ(go.nature.com/mxh4xy参照)。例えば、地震発生後にセンサーのデータをくまなくチェックする地震学者や、宇宙望遠鏡からの観測データを処理する天文学者など、一時的に莫大な計算能力が必要な科学者たちは、常設のハードウエアに投資しなくても、必要に応じて追加の計算能力を借りることで対応できるようになる。

科学者は、クラウド環境を自身の要件に合わせて設定することができる。つまりクラウドコンピューティングは、最先端のスーパーコンピューターやマシン間の高速通信を必要とするような分析を扱うことはできないが、デスクトップコンピューターで実行するには大き過ぎ、高性能スーパーコンピューターを利用するほどでもないようなプロジェクトにはぴったりだ。また、オンラインでデータやソフトウエア、設定の仮想スナップショットを共有することで、チームでの共同作業がやりやすくなる。

とはいえ、科学をクラウドに移行する作業は容易ではない。「技術的な予備知識が必要です。科学者のようなエンドユーザーのためにデザインされたものではありませんから」とHowisonは言う。ハードルは高いが、自分の研究グループや研究室のためにクラウド環境を設定したいと考えている科学者のために、ルートをいくつか紹介しよう。

DIYガイド

ほとんどのクラウドプラットフォームは、ユーザーに対し、基礎的なコンピューティングスキルを要請している。コマンドラインでの作業の仕方や、オペレーティングシステムやファイル構造など、基礎を身に付けたら、クラウドコンピューティングに挑戦してみよう。

科学者向けクラウドの中で最もユーザーフレンドリーなのはAtmosphereというプラットフォームだろうと、ピュージェットサウンド大学(米国ワシントン州タコマ)の植物生物学者Andreas Madlungは言う。Atmosphereは、NSFが資金を提供し、米国の3つの大学とコールド・スプリング・ハーバー研究所(米国ニューヨーク州ロングアイランド)が中心となって運営するiPlant Collaborativeという共同サイバーインフラプロジェクトの一環として作られた。iPlantは2008年の設立以来、植物科学コミュニティーを対象としてクラウド上でのソフトウエアの共有や無料の分析サービスを提供してきたが、2015年にCyVerseと改称し、その対象を生命科学全般に拡大した。

科学者を念頭に置いてデザインされたCyVerseのインターフェースには、あらかじめ組み込まれたソフトウエアと、練習用のデータセットと、ユーザー同士が助け合って問題を解決するためのディスカッション・フォーラムが用意されている。学部生にバイオインフォマティクスの授業をしているMadlungは、クラウドコンピューティングを教える際、最初にUnixオペレーティングシステムを紹介し、次に学生たちに、その知識を活用してAtmosphere上のRNA配列データを分析させている。

CyVerseに登録した人は自動的に1カ月に約168時間相当の処理時間を与えられ、必要ならもっと要求することができる。ユーザーは自分が必要とするソフトウエアを仮想マシンに追加することができる。そのジョブが標準的な装置で扱うには大き過ぎる場合には、テキサス大学オースティン校のテキサス先端計算センター(TACC;米国)のスーパーコンピューターにタスクがオフロードされる(CyVerseはTACCにおいて保証された割り当てを持っている)。

カリフォルニア大学デービス校(米国)の生物学者Mike Covingtonが研究室での計算をクラウドで行うようになったきっかけは、当時、オーバーロード(過負荷)のせいで研究室のサーバーがクラッシュを繰り返していたことだった。彼はクラウドを利用するようになったのと同時に、自分の仮想マシンのコピー(「イメージ」と呼ぶ)も作り、彼の共同研究者や、同じクラウドを利用する任意のユーザーがログインして、同じソフトウエアやデータ、設定にアクセスできるようにした。「私が数時間かけて設定したde novoゲノムアセンブリ(短いDNA断片から完全長配列を再構築すること)に最適な仮想マシンを、自身のデータでde novoアセンブリを行いたいと思っている世界中の科学者に、迅速かつ容易に提供できるわけです」とCovingtonは言う。

こうした仮想スナップショットは計算を必要とするプロジェクトの標準になるかもしれない。例えば、ある論文に書かれていた微生物ゲノム分析の結果を再現したいと思う人がいたら、アマゾンに計算時間分の費用を支払うだけで、クラウド上にある論文著者の仮想マシンのスナップショットにアクセスできるのだ(B.Ragan-Kelley et al. ISME J. 7, 461-464; 2013)。

クラウドを選ぶ

選択するべきクラウドが決まっている研究者もいる。例えば、欧州原子核共同研究機構(CERN;スイス・ジュネーブ近郊)の科学者たちは2013年からソフトウエアプラットフォームOpenStack上の巨大な内部クラウドにアクセスしている。コーネル大学(米国ニューヨーク州イサカ)やノートルダム大学(米国インディアナ州)など、いくつかの学術研究機関もコンピューティングクラウドを開発した。ノートルダム大学など一部の学術研究機関は、ユーザーのためにクラウドサービスを設定・管理する多国籍企業ラックスペース(Rackspace;米国テキサス州サンアントニオ)のような企業にクラウドをアウトソーシングしている。けれども、学内クラウドを当てにできない大学の研究者は、数多くの選択肢の中からクラウドを選ぶという冒険をしなければならず、それが実に悩ましい(「クラウドで困っている人のためのガイド」参照)。クラウドシステムの設定はさまざまで、あるプロバイダーのシステムに精通していても、他のプロバイダーに容易に移行できるとはかぎらない。

ブラウン大学でHowisonと研究している進化生物学者のCasey Dunnは、学生の訓練に商用プラットフォームを使っている。「別の所でポスドクになっても、自分の研究室を構えたときにも、アマゾンにはログインできますからね」と彼は言う。

スタンフォード大学ゲノミクス・オーダーメイド医療研究所(米国カリフォルニア州)のバイオインフォマティクス部門長であるSomalee Dattaは、同センターの膨大な量のゲノミクスデータや必要な計算能力を補うために、大学で利用できるサーバーだけに依存せずに、グーグルのクラウドプラットフォームも利用している。彼女がグーグルを選んだ理由は、グーグルの開発者がゲノミクス研究者向けのツールを積極的に作っていることや、グーグルがヘルスケア研究へ関心を示していること、そして何より価格が適正なことだという。

クラウドの懸念

Dattaらにとって、クラウドコンピューティングを巡る主要な問題の1つはセキュリティーだ。「非常に心配です。ハッカーはどこに価値があるかを理解していて、そこを狙ってくるからです」と彼女は言う。それでもDattaは、クラウドの安全性は、他のコンピューター・ネットワークと同程度だと考えている。例えば、大学のクラウドシステムの堅固さは大学のファイアウオールと同程度である。「私が個人もしくは小規模な大学・企業で仕事をしていたら、グーグルのクラウドの方が安全と感じるでしょう」とDattaは言う(なお、スタンフォード大学はセキュリティーの監視のために独自にエンジニアを数人置いている)。重要なデータを扱っている人は、データをインターネットから完全に遠ざけておく方がよい。

これからクラウドコンピューティングに挑戦しようとする研究者にとって、重要な問題がもう1つある。自分がどのレベルの技術的サポートを必要とするかである。どのクラウドプロバイダーもトレーニングやチュートリアルを提供しているが、学内クラウドがある大学の方が専門のサポートスタッフがいることが多い。

ラックスペース社の副社長Darrin Hansonは、こうした困難にもかかわらず、クラウドコンピューティングは科学者をますます魅了するようになっていると言う。「少し前までは開発の最前線にいる人々が大半でした。今は、新しい技術を利用し始める人々が殺到しています」。

クラウドで困っている人のためのガイド

研究者向けクラウド

最大規模の商用プロバイダーとしてはAmazon EC2Microsoft AzureGoogle Cloud Platformがある。その他のサービスとしては、研究機関向けとして始まったTerminal.com、NSFが後援するCyVerseのAtmosphereCoCalc(旧SageMathCloud)、コーネル大学のRed Cloud、クラウドアプリの迅速なデプロイで知られるDigitalOceanRackspaceがある。ラックスペース社は、NASAと共同開発したオープンソースクラウド基盤ソフトウエアOpenStackを利用してクラウドを設定する企業である。

クラウドを活用する人に便利なリソース

マサチューセッツ工科大学(米国ケンブリッジ)が開発したStarClusterは、アマゾンのプラットフォーム上での研究用の仮想コンピューティングクラスターの構築に役立つツールである。Dockerは、研究者が分析に使用したコードやコンピューティング環境やデータのスナップショットを共有できるようにするオープンソースプラットフォームである。Project Jupyterは共有可能なノートブックで、データやコードや分析へのアクセスを容易にし、双方向的にする(H.Shen, Nature 515,151–152; 2014)。アルゴンヌ国立研究所(米国イリノイ州)などが開発したNimbusは、通常のコンピューティングクラスターを遠隔ユーザーがアクセスできるクラウドシステムに変換するのに役立つ。

(翻訳:三枝小夜子)

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度