Research Press Release

医学:大規模言語モデルが一般市民の医療に関する意思決定を改善しないかもしれない

Nature Medicine

2026年2月10日

大規模言語モデル(LLMs:Large language models)は、日常的な医療状況において一般市民が自身の健康に関するより良い判断を下す助けにはならないかもしれないことを報告する論文が、Nature Medicine にオープンアクセスで掲載される。著者らは、将来のツールが公衆向け医療アドバイスとして安全に活用されるためには、実際のユーザーをより良く支援するよう設計される必要があると主張している。

LLMは、医療知識への一般市民のアクセス改善を目的とした潜在的なツールとして、世界の医療提供者から提案されてきた。これにより、個人が臨床医を受診する前に、初期的な健康評価を行い、自ら病状の管理を行えるようになる。しかし、これまでの研究では、管理された環境下で医療免許試験に非常に高い得点を記録したLLMが、必ずしも現実世界のやりとりで成功するとは限らないことが示されている。

Adam Mahdi(オックスフォード大学〔英国〕)、Adam Beanらは、LLMが一般市民の医療状態(風邪、貧血、および胆石など)の正確な識別や、救急車やかかりつけ医への連絡といった行動選択を支援できるかを検証した。英国の参加者1298名にそれぞれ10種類の異なる医療シナリオを提示し、3種類のLLM(GPT-4o、Llama 3、Command R+)のいずれか、または対照群としてインターネット検索エンジンなどの通常利用する情報源を無作為に割り当てた。

人間の参加者をのぞいたテストでは、LLMはシナリオを正確に完了し、94.9%のケースで病状を正しく特定、平均56.3%のケースで適切な行動を選択した。しかし、参加者が同じLLMを使用した場合、関連病状の特定率は34.5%未満、適切な行動選択率は44.2%未満に低下し、対照群と同水準の結果にとどまった。30件のサブセットでは、著者らが人間とLLMの対話を手動で検証した。その結果、参加者がモデルに対して不完全または誤った情報を提供することが多い一方、LLM自体が誤解を招く情報や誤った情報を生成する場合もあることが確認された。

著者らは、現行のLLMは直接的な患者ケアへの導入準備が整っていないと結論づけている。LLMと人間のユーザーを組み合わせることで、既存のベンチマークやシミュレーションでは予測できない課題が生じるためである。

Bean, A.M., Payne, R.E., Parsons, G. et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nat Med (2026). https://doi.org/10.1038/s41591-025-04074-y
 

doi:10.1038/s41591-025-04074-y

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

「注目のハイライト」記事一覧へ戻る

プライバシーマーク制度