医学:医学的な質問に対するAIの回答能力をベンチマーキングする
Nature
2023年7月13日
Medicine: Benchmarking AI’s ability to answer medical questions
医学的な質問に対する大規模言語モデル(LLM)の回答内容を評価するためのベンチマークを報告する論文が、Natureに掲載される。Google ResearchとDeepMindによるこの論文では、医学分野に特化したLLMであるMed-PaLMも紹介されている。ただし著者らは、LLMには多くの限界があり、それらが克服されて初めてLLMの臨床応用が可能になると指摘している。
人工知能(AI)モデルは、医学分野で使用できる可能性がある。その一例が、知識の検索や臨床判断の支援だ。しかし、現在のAIモデルは、例えば、説得力のある誤った医学情報をまことしやかに提示したり、健康格差を悪化させ得るバイアスを組み込んだりする可能性がある。そのために、AIモデルの臨床知識の評価が必要になっている。ところが、こうした評価は、限られた種類のベンチマーク(例えば、個別の医学試験の点数)による自動評価に基づいていることが通例で、評価結果が現実世界の信頼性や価値に結び付くとは限らない。
今回、Karan Singhal、Shekoofeh Azizi、Tao Tu、Alan Karthikesalingam、Vivek Natarajanらは、LLMが医学的な質問に回答する能力を検討して、LLMにどれだけの臨床知識がコード化されているかを評価した。著者らは、MultiMedQAという新たなベンチマークを提示している。MultiMedQAは、医療従事者、研究者、消費者からの質問に対応する6種類の既存の質問応答データセットと、オンライン検索された医学的な質問(合計3173問)の新規データセット(HealthSearchQA)を組み合わせたものである。次に、著者らは、PaLM(5400億パラメータLLM)とその改良版Flan-PaLMの性能を評価した。その結果、Flan-PaLMは、いくつかのデータセットで最高の性能を達成した。また、米国医師国家試験形式の質問からなるMedQAデータセットでは、FLAN-PaLMは、これまでの最先端のLLMの性能を17%以上上回った。FLAN-PaLMは、多項選択式問題での性能は良好だったが、人間による評価では、消費者からの医学的な質問に対する長文回答の点で劣っていることが明らかになった。
この問題点に対処するため、著者らは、インストラクション・プロンプト・チューニングという手法を用いて、Flan-PaLMの医学分野に対する適応性をさらに高めた。この手法は、汎用LLMを新しい専門分野に整合させるための効率的な方法として導入されている。それによって得られたモデルMed-PaLMの予備的評価での性能は、その将来に期待を持たせるものとなった。例えば、臨床医のパネルによる評価で、科学的コンセンサスと一致すると判断されたFlan-PaLMの長文回答はわずか61.9%であったのに対し、Med-PaLMの回答は92.6%で、臨床医が作成した回答(92.9%)とほぼ同レベルだった。また、Flan-PaLMの回答の29.7%が有害な結果につながる可能性があると評価されたのに対し、Med-PaLMでは5.8%となり、臨床医が作成した回答(6.5%)とほぼ同じだった。
著者らは、今回の研究によって期待できる結果が得られたが、さらなる評価が必要な点も指摘している。
doi: 10.1038/s41586-023-06291-2
注目の論文
-
12月13日
Nature Medicine:2025年の医療に影響を与える11の臨床試験Nature Medicine
-
12月12日
天文学:Firefly Sparkleが初期の銀河形成に光を当てるNature
-
12月12日
医学:マウスの子癇前症に対するmRNA療法の提供Nature
-
12月10日
Nature's 10:2024年の科学に影響を与えた10人Nature
-
12月10日
加齢:脳の老化に関連する重要なタンパク質の発見Nature Aging
-
12月3日
神経科学:標的を絞った脳深部刺激が脊髄損傷後の歩行を改善するNature Medicine