注目の論文

医学：医学的な質問に対するAIの回答能力をベンチマーキングする

Nature

2023年7月13日

Medicine: Benchmarking AI’s ability to answer medical questions

医学的な質問に対する大規模言語モデル（LLM）の回答内容を評価するためのベンチマークを報告する論文が、Natureに掲載される。Google ResearchとDeepMindによるこの論文では、医学分野に特化したLLMであるMed-PaLMも紹介されている。ただし著者らは、LLMには多くの限界があり、それらが克服されて初めてLLMの臨床応用が可能になると指摘している。

人工知能（AI）モデルは、医学分野で使用できる可能性がある。その一例が、知識の検索や臨床判断の支援だ。しかし、現在のAIモデルは、例えば、説得力のある誤った医学情報をまことしやかに提示したり、健康格差を悪化させ得るバイアスを組み込んだりする可能性がある。そのために、AIモデルの臨床知識の評価が必要になっている。ところが、こうした評価は、限られた種類のベンチマーク（例えば、個別の医学試験の点数）による自動評価に基づいていることが通例で、評価結果が現実世界の信頼性や価値に結び付くとは限らない。

今回、Karan Singhal、Shekoofeh Azizi、Tao Tu、Alan Karthikesalingam、Vivek Natarajanらは、LLMが医学的な質問に回答する能力を検討して、LLMにどれだけの臨床知識がコード化されているかを評価した。著者らは、MultiMedQAという新たなベンチマークを提示している。MultiMedQAは、医療従事者、研究者、消費者からの質問に対応する6種類の既存の質問応答データセットと、オンライン検索された医学的な質問（合計3173問）の新規データセット（HealthSearchQA）を組み合わせたものである。次に、著者らは、PaLM（5400億パラメータLLM）とその改良版Flan-PaLMの性能を評価した。その結果、Flan-PaLMは、いくつかのデータセットで最高の性能を達成した。また、米国医師国家試験形式の質問からなるMedQAデータセットでは、FLAN-PaLMは、これまでの最先端のLLMの性能を17％以上上回った。FLAN-PaLMは、多項選択式問題での性能は良好だったが、人間による評価では、消費者からの医学的な質問に対する長文回答の点で劣っていることが明らかになった。

この問題点に対処するため、著者らは、インストラクション・プロンプト・チューニングという手法を用いて、Flan-PaLMの医学分野に対する適応性をさらに高めた。この手法は、汎用LLMを新しい専門分野に整合させるための効率的な方法として導入されている。それによって得られたモデルMed-PaLMの予備的評価での性能は、その将来に期待を持たせるものとなった。例えば、臨床医のパネルによる評価で、科学的コンセンサスと一致すると判断されたFlan-PaLMの長文回答はわずか61.9％であったのに対し、Med-PaLMの回答は92.6％で、臨床医が作成した回答（92.9％）とほぼ同レベルだった。また、Flan-PaLMの回答の29.7％が有害な結果につながる可能性があると評価されたのに対し、Med-PaLMでは5.8％となり、臨床医が作成した回答（6.5％）とほぼ同じだった。

著者らは、今回の研究によって期待できる結果が得られたが、さらなる評価が必要な点も指摘している。

doi: 10.1038/s41586-023-06291-2

英語の原文

注目の論文

11月14日

医学：豚からヒトへの腎臓移植の長期経過観察Nature
11月14日

生態学：鳥インフルエンザがサウスジョージア島の繁殖期のゾウアザラシ個体数を半減させるCommunications Biology
11月13日

気候変動：ムンバイにおける異常降雨に関連した不均衡な死亡率Nature
11月11日

加齢：多言語使用は老化の加速を防ぐかもしれないNature Aging
11月11日

バイオテクノロジー：超音波がマウスの脳卒中後の脳内残留物を除去するのに役立つNature Biotechnology
11月6日

神経科学：時間の経過とともに発達する脳の変化を解明するNature

「注目の論文」一覧へ戻る

医学：医学的な質問に対するAIの回答能力をベンチマーキングする

Medicine: Benchmarking AI’s ability to answer medical questions

注目の論文

医学：豚からヒトへの腎臓移植の長期経過観察Nature

生態学：鳥インフルエンザがサウスジョージア島の繁殖期のゾウアザラシ個体数を半減させるCommunications Biology

気候変動：ムンバイにおける異常降雨に関連した不均衡な死亡率Nature

加齢：多言語使用は老化の加速を防ぐかもしれないNature Aging

バイオテクノロジー：超音波がマウスの脳卒中後の脳内残留物を除去するのに役立つNature Biotechnology

神経科学：時間の経過とともに発達する脳の変化を解明するNature