バイオウィキの果てしない挑戦
サンガー研究所(英国ヒクストン)のAlex Batemanは、Rfamというデータベースの設立に協力した人物だ。RfamはウィキペディアのRNA分子ファミリーに関する約1500項目を含み、2000人以上の編集者によって維持されている。近年、生物学コミュニティーが管理するこうした生物学ウェブサイトが増えている。昨年11月29日には、Biological Wikis会議がイタリアのナポリで開催された。その目的は、研究者たちが「バイオウィキ」の現状について話し合い、今後の展開を計画することにあり、この種の会議としては初めてのものとなった。
バイオウィキは、生物学分野で深刻化しつつあるデータの供給過剰問題を解決する切り札として注目されている。現在、各研究室が収集する遺伝子やタンパク質の情報はテラバイト(1012バイト)単位に上っており、従来型のデータベースは、データ処理に追われている。そこで、生物学者たちは徐々に、特定の遺伝子またはタンパク質、あるいは、興味のある概念や事物に特化したウェブページを制作し、更新するようになっている。バイオウィキ推進派は、ウィキペディアの成功が、コミュニティーによるアノテーション(注釈付け)の有効性を証明していると主張し、これらのサイトはすでに、一部の分野では欠くことのできないツールになっているという。
例えば、Gene Wikiは総ページ1万を超えており、1か月当たりの閲覧数は約400万、編集回数は1000回に上っている。ノバルティス研究財団ゲノミクス研究所(米国カリフォルニア州サンディエゴ)のAndrew Suは、こう話す。「実験により候補遺伝子を得たものの、その遺伝子についてほとんど何も情報がない場合に、このサイトを訪れる研究者は多いのです。ここに来れば、手っ取り早く状況を把握することができるからです」。
Batemanは、ウィキペディア上にあるバイオウィキは、既存のウィキペディアのコミュニティーからの貢献にも助けられていると話す。「意外だったのは、科学者以外の人々が、科学者と同じくらい貢献してくれることでした」。確かに個々の項目について詳しい専門知識をもっていないかもしれないが、ページのフォーマットや標準化という、「重要かつ有効な貢献」をしてくれるのだ。とはいえ、ウィキペディアには独自の規則や特異性があるため、特定の種類の生物学データに関しては十分に力を発揮することができない。ウィキペディアのページを獲得するためには、そのテーマが注目に値するものであると、ウィキペディアのコミュニティーによって認められなければならない。そのため、タンパク質の結晶構造や遺伝的多型などのデータは、重要であるにもかかわらず、必ずしもその資格を認められないとSuはいう。
やっかいなのは、読者を引きつけようといろいろやっている、ウィキペディアとは独立したバイオウィキである。だが、グラッドストーン心臓血管疾患研究所(米国カリフォルニア州サンフランシスコ)のAlexander Picoは、こうした問題はおのずと解消されると考えている。彼のチームのWikiPathwaysは、生物学的経路について説明し、視覚的に表現するサイトであるが、ウィキペディアから独立していても、成功をおさめている。
バイオウィキの問題点の1つは、デフォルトがテキストベースであることだ、とSuはいう。計算生物学者は、高度に構造化された検索しやすいデータセットで、遺伝子やタンパク質、その他の因子との関係を正確に示すものを好む。Semantic MediaWikiというソフトウェア・パッケージは、Gene Wikiを含め、多くのバイオウィキで使われており、バイオウィキどうしを近づけて本物のデータベースのように機能させる。このソフトウェアを使えば、例えば相互作用を個別に調べなくても、特定の組織内で発現している特定の酵素が作用するタンパク質を探し出すことができるのだ。
だが、これほどの革新を起こしても、バイオウィキへの投稿が研究者の業績として評価され、よりよいキャリアを得られることはない。これが解消されて、初めて、バイオウィキが真の成長を遂げたといえるのかもしれない。
翻訳:三枝小夜子、要約:編集部
Nature ダイジェスト Vol. 8 No. 2
DOI: 10.1038/ndigest.2011.110206