News in Focus

コロナウイルス変異株と患者を追跡できるグーグル出資の巨大データベース

Global.healthによる新しいデータベースは、COVID-19感染者の旅行歴や発症時期など、個人レベルのデータを収集している。 Credit: An Yuan/China News Service via Getty

重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)およびその感染症であるCOVID-19を巡っては、新しい変異株が人々の間でどのくらいのペースで広まっているのか、ワクチンは変異株にも有効なのか、免疫はどのくらい長く持続するのかなど、切実な疑問がいくつもある。2021年2月24日に公開された巨大な国際データベースは、こうした疑問に答えようとする免疫学者の役に立つことが期待される。

世界のCOVID-19患者数と死亡者数をまとめた一般的な追跡ツールには、ジョンズホプキンス大学(米国メリーランド州ボルティモア)が管理する「Dashboard」などがある。だが、データサイエンス・イニシアチブGlobal.healthの新しいリポジトリは、それらとは違い、個々のCOVID-19症例に関する匿名化された情報をかつてない規模で収集していて、個々の感染者の発症日、検査で陽性になった日、旅行歴など、SARS-CoV-2感染に関連する変数が40もある。

プロジェクトに参加するジョンズホプキンス大学の疫学者Caitlin Riversは、こうした個人レベルのデータは、疾患の広がりを解明する手掛かりになると説明する。「多くの場合、私たち疫学者がアウトブレイクの深刻さを理解する頃には、既に手遅れになっています。データがあれば、その悪循環を断ち切り、プロセスを迅速に進められます」。

Global.healthは、欧米の7つの学術機関に所属する21人の研究者が、グーグル社とロックフェラー財団から技術的・資金的支援を受けて制作した。開発チームはこれまでに約150カ国2400万件の症例の情報を集めた。

Riversは、「SARS-CoV-2のアウトブレイクの初期にこのようなデータベースがあれば有用だったでしょう」と言う。このウイルスが中国でヒトからヒトへと頻繁に広まっていることを世界保健機関(WHO)が認めたのは2020年1月23日だった。それよりも前に状況を確認でき、パンデミック(世界的大流行)を早期に抑え込むこともできたかもしれないわけだ。

2021年2月に公開されたGlobal.healthのウェブサイトでは、この地図のように可視化したデータを提供している。地図はリポジトリに投稿されたCOVID-19患者の分布を示している。ユーザーが「variant(変異株)」ボタンをクリックすると、特定の変異株が報告された場所を見ることができる。濃い青の地域ほど多くの症例がリポジトリに投稿されていて、薄い水色の地域ほど投稿された症例が少ないことを示している。 Credit: Global.health

チュレーン大学(米国ルイジアナ州ニューオーリンズ)のウイルス学者Robert Garryは、「こうしたリポジトリは本当に良いもので、絶対に必要です。これまで存在しなかったのは、実現が非常に困難だったからです」と語る。

力を合わせる疫学者たち

伝染病のアウトブレイクが発生すると、疫学者は新聞記事や保健機関から集めた情報を自作のスプレッドシートに整理する。患者の症状、年齢、感染経路などの詳細が明らかになれば、疾患の原因、伝染性、死亡率などを推定するのに役立つ。

疫学者たちは2020年1月中旬にはSARS-CoV-2についてこの作業を行っていたが、そこから何が分かるかについては意見の一致を見ていなかった。ノースイースタン大学(米国マサチューセッツ州ボストン)の疫学者Sam Scarpinoが当時、「ヒトからヒトへの持続的な感染を裏付ける証拠はない」とツイートしたところ、「あなたは間違っていると思う」というダイレクトメッセージがRiversから届いたという。

理解が曖昧な状況の中、オックスフォード大学(英国)の疫学者Moritz Kraemerが、自作のGoogleスプレッドシートをコミュニティーと共有していた。Scarpinoはその数字を分析し、Riversの指摘が正しいと認めた。

やがて、数十人の疫学者が、このスプレッドシートに世界中の症例の情報を追加し始めた。同時に、彼ら自身や他の疫学者が、このスプレッドシートの情報を分析した。例えば、ロンドン大学衛生熱帯医学大学院(英国)の疫学者Adam Kucharskiらは、このデータと、中国国外に渡航してから感染が確認された中国人の人数を踏まえて、2020年1月に武漢でCOVID-19を発症した中国人の数は、保健当局が確認した人数の約10倍であると推定した1

症例数が10万件を超えると、当初のスプレッドシートに過大な負荷がかかり始めた。2020年4月、研究チームはグーグル社とその慈善事業部門Google.orgの技術者や製品開発者の協力を得ることができた。彼らは共同で、約60カ国の政府が毎日発表するコロナウイルス関連データを標準フォーマットで自動的にアップロードするコンピューターコードや、重複データを削除するコード、世界各地から追加される情報をクラウドベースの単一のリポジトリに統合するアルゴリズムなどを作製した。

プライバシーを優先

最新版のGlobal.healthデータベースでは、登録すれば誰でも、匿名化された8ギガバイトのデータにアクセスできる。2400万件のデータのうち半数は12項目、約10%はそれ以上のデータが登録されているとScarpinoは言う。データの視覚化は今のところ、チームが収集したデータの分布を示す地図に限られている。データベースに誰でもデータを追加できるように、データ収集の標準化とプライバシーに関する問題の解決を優先したため、インフォグラフィックに割く余力がなかったとScarpino。プロジェクト立案者たちは、政府機関や大学、病院などで厳重に管理されている匿名化された個人データを安全に扱い、共有する方法について、法律や倫理の専門家に相談したという。

ベルン大学(スイス)の疫学者Julien Riouは、このデータベースを利用することを楽しみにしている。彼のCOVID-19の研究の多くはスイスのコホートから得られたデータに基づいているが、国際的なデータセットを深く掘り下げれば、世界各国の真の感染率などの基本的な疑問に対して、より正確に答えることができるだろうと期待している。

Kucharskiはプロジェクトへの資金提供を歓迎している。またScarpinoは、将来的にはCOVID-19データベースを拡張し、他の疾患、特に次の新興感染症の追跡に適用できるようにしたいと考えている。そのためには、企業や非営利団体などがこのプロジェクトを推進する必要がある。これは、彼が以前手掛けたソフトウエアから学んだ教訓だ。彼のソフトウエアは、もともとはシリア国内の健康データを追跡するためのものだったが、データ会社に売却され、今では10数カ国で利用されている。「データベースを一過性のもので終わらせてはいけません」とScarpinoは言う。

翻訳:三枝小夜子

Nature ダイジェスト Vol. 18 No. 5

DOI: 10.1038/ndigest.2021.210510

原文

Massive Google-funded COVID database will track variants and immunity
  • Nature (2021-02-24) | DOI: 10.1038/d41586-021-00490-5
  • Amy Maxmen

参考文献

  1. Kucharski, A. J. et al. Lancet 20, 553–558 (2020).