Editorial

ビッグデータを医療へ活用するために必要なこととは

Nature ダイジェスト Vol. 14 No. 2 | doi : 10.1038/ndigest.2017.170236

原文:Nature (2016-11-24) | doi: 10.1038/539467b | The power of big data must be harnessed for medical progress

ビッグデータは芸術的といえるほど大いなる可能性を秘めている。医学の進歩に利用すべきであるが、そのためには、誰が何をどうすればよいのだろう。

拡大する

aurielaki/iStock/Getty Images Plus/Getty

「ビッグデータ」には芸術的側面がある。ビッグデータは「天空の全ての星ほどの大量のデータ」と詩的に例えられることがあるだけでなく、制御も把握もできないほどに急成長していることや、治療法の開発と承認を迅速化し、究極的には真に個別化した医療を実現して私たちの生活を改善することができるという魅惑的な可能性を秘めている点も、芸術的なのだ。

しかし2016年11月に開催された欧州医薬品庁のワークショップで、この素晴らしい未来の実現には科学研究の蓄積がどれほど不足しているかが、誰の目にも明らかになった。このワークショップで患者団体と科学研究者は、IBMワトソン・ヘルスおよびグーグル・クラウド・プラットフォームのコンピューター科学研究者らと一堂に会し、はっきりした答えがない数々の難問に取り組んだのだ。

高い信頼度で臨床効果を予測するための「十分な」データとはどれほどの量で、どのデータセットが役に立つのか。国民と規制当局の信頼を得るための最良の方法とは何なのか。そして特に重要な問いは、大学では、ビッグデータの新しい可能性を高め、活用する任務を負う十分な数の数学者と医療データ科学者を養成するための教育が行われているかどうかだ。少なくとも、この最後の問題については答えがはっきりしている。そのような大学教育は行われていない。

まず、医療のビッグデータセットには、ヒトゲノムが記述された「ゲノミクス」データセット、ヒトの体内で発現している遺伝子を明らかにした「トランスクリプトミクス」データセット、特定の組織標本に含まれるタンパク質を網羅した「プロテオミクス」データセットなどがある。例えばゲノミクスデータは、特定の遺伝子バリアントの有無により、さまざまな疾患に関して発症リスクの高い集団と低い集団の分類ができ、特定の薬剤に応答する可能性の高いがん患者を判定できる場合もあるため、その価値は明らかだ。

これに対して、単一分子のデータセットには、ヒトの医学的運命の全容を明らかにするのに十分な情報があるとは言えないが、さまざまな種類の分子データを統合すれば全容解明に近づけるかもしれない(ただし、計算上の課題を克服する必要がある)。また、個人の分子データをその生理と行動、健康と関連付ければ、さらに多くの知見が得られるだろう。それには、近年急増している電子カルテや、疾病登録、入院・通院記録、医療保険記録、それから研究出版物と臨床試験データも役立つ可能性がある。加えて、ウェアラブル機器や携帯アプリなどで収集された個人の健康データや、ボランティア被験者のゲノム塩基配列からも情報が得られる。ツイッターなどのソーシャル・メディア・プラットフォームから医学関連データの抽出を試みている研究者もいる。

気が遠くなるほど大量のデータは、これでますます膨れ上がることになる。上述のワークショップで示された試算によれば、ヒト1人の一生に関する臨床的因子のデータが約0.4テラバイト、ゲノミクスデータが約6テラバイト、この他に外因性因子などのデータが約1100テラバイト生成される。2020年には、健康関連データ収集量の総計が73日で倍増するようになる。医療従事者は、金融関係者より多くのデータと直面するようになるのだ。

こうした情報を全て収集・保管しつつ、医療データをも例外としない厳しい個人情報保護法規を遵守することが、もう1つの課題だ。IBMワトソン・ヘルス、ヒューレット・パッカードなどのテクノロジー企業は、データをローカルに保持するシステムを構築していて、データはアルゴリズムを適用できるが外部に送信できない仕組みだ。当然のことながらグーグルは、全てのデータをクラウド上に置く方が安全だと考えている。

科学者にとっての大問題は、こうした芸術的な青写真の数々を科学知識に変換するための一歩とは何なのかを明らかにすることである。データセットの信頼度にはばらつきがある。ソーシャル・メディアから抽出したものは非常に乱雑で、その有用性はまだ明らかになっていない。そして、大型データセットは、信頼性に関係なく必ず疑似相関を示す。そのため、意味のあるパターンを判別するには、データを扱う者が生物学を深く理解している必要があるが、一般的なソフトウエア開発者はそうではない。つまり、研究助成機関と大学は、未来の生物学者を育成するに当たり、数学とデータ科学の教育をかなり拡充する必要があることに留意すべきだ。

ビッグデータは、臨床試験の一部をコンピューター上で実施できるようになるというエキサイティングな可能性も秘めている。そうなれば、実際の臨床試験での募集患者数を減らせるだけでなく、薬物の検証で用いる動物の数も減らすことができる。専門家に対する市民の信頼は史上最低のレベルにある中、ビッグデータの分野はこのように発展を続けているのだ。規制当局はすでに臨床試験においてコンピューターシミュレーションで得られた情報を利用することを許容する態勢ができている。欧州医薬品庁と米国食品医薬品局はコンピューターで得られた薬物動態データを受理したことがあるのだ。薬物動態データは、新薬を開発した製薬会社が規制当局に提出しなければならないデータセットの中で最も単純なものの1つだ。しかし、科学的予測と臨床的予測を行う際に用いられる抽象的な情報科学と数学的ノウハウを、医師と患者および規制当局が当然のように信頼するとは考えられない。ビッグデータの分野を詩や夢物語で終わらせないために、医師と研究者は実際の成果に向けて少しずつ前進して行かねばならないが、そのためには、次世代の科学者と一般市民に対し、「ビッグデータでできること」について芸術的な側面と科学的な側面を示し、その活用のための教育拡充を図っていく必要がある。

(翻訳:菊川要)

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度