News & Views

COVID-19検査対象の入国者を選別するアルゴリズム

入国者に対するCOVID-19検査を最適化するためには、陽性になる可能性が高い人を予測する必要がある。ギリシャの国境では、検査対象を絞るための機械学習アルゴリズムが導入されている。

ギリシャ・アテネのエレフテリオス・ベニゼロス国際空港に到着した入国者が、COVID-19検査を受けている様子。 Credit: MILOS BICANSKI/GETTY

新型コロナウイルス感染症（COVID-19）対策に機械学習を導入することは、誰もが考え付きそうなアイデアである。しかし、強い関心が抱かれ、大規模なデータセットが利用できるようになりつつあるにもかかわらず、こうした組み合わせによる成功例はほとんど見当たらない。Nature 2021年11月4日号108ページでは、ペンシルベニア大学（米国フィラデルフィア）のHamsa Bastaniら¹が、彼らが設計し、2020年8月からギリシャへの入国地点に導入されているシステムについて説明している。強化学習と呼ばれる手法を使って構築されたこのアルゴリズムは、新型コロナウイルス（SARS-CoV-2）の検査効率を飛躍的に高め、ギリシャ国境の安全な開放に貢献している。今回の研究はまた、ギリシャ以外のほとんどの国々が採用し続けている、このアルゴリズムより効率の低い水際対策の欠点について、明確な警告を与えている。

COVID-19検査は、機械学習による解決に適した課題である。ギリシャの島の国境管理官を想像してみてほしい。国外からの飛行機がちょうど着陸したところで、管理官の仕事はSARS-CoV-2に感染している入国者を特定して隔離することである。到着した入国者全員を検査したいところだが、島の検査の処理能力は非常に限られているし、一般論としても常に全員を検査することは現実的でない。だが、経済が観光業に大きく依存している国々において国境を完全に封鎖することは、国に危機的状況をもたらす。国境の封鎖によって、雇用と収入の喪失に伴う莫大な経済的損失のみならず、そうした損失が公衆衛生に及ぼす悪影響も考えられるのだ²。だからこそ、国境管理官は「誰を検査すべきか」という難しい決断を迫られる。

既に指摘されているように³、検査の価値は最終的な結果によって決まる。このシナリオでは、結果が陰性であった場合、検査費用と入国者の時間的拘束というコストだけが発生することになる。一方、結果が陽性であれば、SARS-CoV-2に感染している入国者が感染源となったであろう、国内における全てのCOVID-19患者の発生を未然に防ぐことができるという多大な利益が生じる。従って、国境管理官が取るべき最善の戦略は、陽性になる可能性が高い入国者を予測して検査の対象とすることだ。この戦略は検査の価値を最大化する。なぜなら、最も少ない検査数で、最も多くのSARS-CoV-2感染者を検出できるからである。

陽性になる可能性が高い入国者を予測できれば、国境管理官は検査資源を効率的に割り当てることができる。幸いにして、入国者のデータ（居住国と地域、年齢、性別）は全ての入国者がギリシャ到着の24時間前に記入する入国者名簿に基づいてデジタル化されており、それを入手することができる。入国者の過去の検査データから、どのような「属性」の入国者が陽性になる可能性が高いかを予測することは、一見とても明快な戦略に思える。しかし、統計学およびコンピューターサイエンスの領域における数十年間にわたる研究が示しているように⁴、この戦略にはリスクがある。過去のパンデミックのデータにとらわれてしまうのだ。感染拡大の状況が時々刻々と変化していることを考えると、一歩先んじて適切な入国者を検査するためには、状況に応じてアルゴリズムを迅速に変化させなければならないのである。

ここで機械学習がその真価を発揮する。どの手を打てばゲームに勝てるか、囲碁プログラムのアルゴリズム⁵を訓練するのと同じように、Bastaniらはアルゴリズムに対し、どのような入国者が陽性になる可能性が高いかを学習させることで、少ない検査資源を割り当てる訓練をした。

重要なのは、このアルゴリズムが2つの目標のバランスをとっていることである。第一の、そして分かりやすい目標は、陽性になる可能性が高い属性の入国者を検査することである。それには、過去のデータから学習した、さまざまな属性グループにおけるSARS-CoV-2検査の結果のパターンを利用する。第二の目標は、すぐには少し分かりにくいが同様に重要なことで、アルゴリズムがほとんど知らない属性の入国者を検査し、過去のデータにはないパターンを探索することである。

そして、とある日、とある入国地点にこのアルゴリズムは導入され、どの入国者を検査すべきかを国境管理官が判断するための的を絞った勧告を出す。ただし、その勧告は、サプライチェーン、人員配置、検査室の処理能力、検体の配送能力といった、コストやリソース上の制約が考慮されている。コストやリソース上の制約は現実的な問題であり、どうしても縛られてしまうのだ。実際、Bastaniらは、夏の観光シーズンのピーク時には、入国者全体の18.4%を検査できる処理能力しかなかったと述べている。検査の効率化を図るために、ギリシャのCOVID-19専門家会議が賢明にも検体プール検査（複数の人の検体を混合して検査すること）を承認してからも、状況はほとんど変わっていない。

Bastaniらは電子商取引やマーケティングの領域で実績を上げている強化学習戦略⁶を利用している。しかし、強化学習戦略を実際の場面に適用するに当たっては、特有の技術的課題がある。例えば、このアルゴリズムでは、個々の検査結果を1つずつ学習するのではなく、大量の検査結果から断続的に学習する必要がある。その場合、大量の検査結果からのフィードバックが遅れるため、フィードバックを待つ間、アルゴリズムは何も知らされずに動作せざるを得なくなる。このような課題を解決するために、もっと簡単な構築で、データが豊富なオンライン環境向けに通常設計されているアルゴリズムに、大幅な調整を加える必要があった。

しかし、最も厄介な課題は法的・政治的なものである。欧州連合（EU）の一般データ保護規則（General Data Protection Regulation；GDPR）に準拠するために、Bastaniらは弁護士、疫学者、政策立案者と緊密に相談しながら、アルゴリズムが利用できるデータを（結果的にはアルゴリズムの性能を）意図的に制限した。GDPRによってアルゴリズムの性能が制限される可能性があることは、プライバシーの保護を目的とした善意の法律が、いかにプラスとマイナスの両方の結果をもたらし得るかを浮き彫りにしている。個人のプライバシーが制限されてしまうパンデミック下では、そのような規制は最終的に国民の健康を守る政府の動きの足かせとなってしまう可能性がある。Bastaniらはまた、政策立案者の意見を考慮してアルゴリズムを調整し、陽性になるリスクの高い入国者と不確実性の高い入国者の両方を検査するというアルゴリズムの2つの目標の価値が、最大限に発揮されるように最適化の方法を選択した。

SARS-CoV-2陽性者を効率よく特定して隔離するBastaniらのアルゴリズムは、経済的な損失を最小限にするかもしれない（写真はパンデミック下、ガラガラになった成田国際空港）。 Credit: Sayuri Inoue/iStock Editorial/Getty Images Plus/Getty

その成果は素晴らしいものだった。自動化されたシステムによって、検査の効率（1回の検査で検出される症例数）は倍増した。国境管理官は、無症状の感染入国者の多くを検査して隔離する一方で、非感染入国者の多くは最終目的地までそのまま通過させることができるようになった。

Bastaniらが発表したアルゴリズムの成功は、ギリシャ以外のほぼ全ての国々が採用している水際対策の欠点を浮き彫りにしている。外国からの入国者を全て拒否するにせよ、特定の国々からの入国者全員に検査や隔離を義務付けるにせよ、こうした水際対策には2つの重大な不備がある。第一に、これらの決定は個人ではなく国全体を対象に一律になされるため、同じ国に住んでいても人によって状況は大きく異なるということが考慮されていないのだ。第二に、決定は通常、国レベルの疫学データに基づいてなされるが、今回の研究で指摘されているように、そのようなデータには注意を要する欠点がある。

もし仮に国境管理官が、感染拡大の指標が一定の基準を超えている国々からの入国者を全て拒否していたならば、SARS-CoV-2感染者がギリシャに入国するのは防げただろうが、その代償として経済の重要な柱を失うことになっていただろう。また、アルゴリズムによる予測に基づいて検査を行うのではなく、報告されているその国の感染拡大の指標に応じた割合で検査を行っていたとしたら、検査の効率ははるかに低いものになっていただろう。なぜなら、報告されている感染拡大の指標は、入国者の実際の感染率とは大きく異なる可能性があるからである。入国者はその国の人口から無作為に抽出されているわけではないし、受動的に収集された感染者数や死亡者数のデータには、大きな報告バイアスが潜んでいたり、アクセスに対するシステム的な障壁が反映されていたりするのだ⁷。

Bastaniらのアルゴリズムは入国者を効率的に検査することで、国レベルの疫学データのみを用いた場合よりも約9日早く、入国者集団におけるSARS-CoV-2感染率の急上昇を予測することができた。この結果は、慎重に計画した上で合理的にデータ収集を行うことの大きな意義と、信頼性が低く不備のある国レベルのデータのみに基づいて重要な決定がなされることの危うさを示している。

Bastaniらの研究は、COVID-19対策にデータを活用した最良の例の1つとして記憶されるだろう。それは研究者のグループが見識のある政策立案者と手を組んで、社会的価値の非常に高いツールを生み出したという説得力のあるストーリーである。学術研究と行政の両者それぞれの得意とするところを引き出し合えたことにより、適切な判断を下す上で人工知能が大きな役割を果たす可能性を示すことができた。その判断が生死を分かつような場面も少なくないのである。

翻訳：藤山与一

Nature ダイジェスト Vol. 19 No. 2

DOI: 10.1038/ndigest.2022.220246

原文

A machine-learning algorithm to target COVID testing of travellers

Nature (2021-11-04) | DOI: 10.1038/d41586-021-02556-w
Ziad Obermeyer
Ziad Obermeyerは、カリフォルニア大学バークレー校（米国）に所属。

参考文献

Bastani, H. et al. Nature 599, 108–113 (2021).
Marmot, M. & Wilkinson, R. (eds.) Social Determinants of Health (Oxford Univ. Press, 2005).
Mullainathan, S. & Obermeyer, Z. Diagnosing Physician Error: A Machine Learning Approach to Low-Value Health Care. National Bureau of Economic Research Working Paper 26168 (2021).
Thompson, W. R. Biometrika 25, 285–294 (1933).
Silver, D. et al. Nature 529, 484–489 (2016).
Li, L., Chu, W., Langford, J. & Schapire, R. E. in Proc. 19th Int. Conf. World Wide Web 661–670 (2010).
Wu, S. L. et al. Nature Commun. 11, 4507 (2020).