医学:大規模言語モデルが一般市民の医療に関する意思決定を改善しないかもしれない
Nature Medicine
2026年2月10日
Medicine: LLMs may not improve public medical decision-making
大規模言語モデル(LLMs:Large language models)は、日常的な医療状況において一般市民が自身の健康に関するより良い判断を下す助けにはならないかもしれないことを報告する論文が、Nature Medicine にオープンアクセスで掲載される。著者らは、将来のツールが公衆向け医療アドバイスとして安全に活用されるためには、実際のユーザーをより良く支援するよう設計される必要があると主張している。
LLMは、医療知識への一般市民のアクセス改善を目的とした潜在的なツールとして、世界の医療提供者から提案されてきた。これにより、個人が臨床医を受診する前に、初期的な健康評価を行い、自ら病状の管理を行えるようになる。しかし、これまでの研究では、管理された環境下で医療免許試験に非常に高い得点を記録したLLMが、必ずしも現実世界のやりとりで成功するとは限らないことが示されている。
Adam Mahdi(オックスフォード大学〔英国〕)、Adam Beanらは、LLMが一般市民の医療状態(風邪、貧血、および胆石など)の正確な識別や、救急車やかかりつけ医への連絡といった行動選択を支援できるかを検証した。英国の参加者1298名にそれぞれ10種類の異なる医療シナリオを提示し、3種類のLLM(GPT-4o、Llama 3、Command R+)のいずれか、または対照群としてインターネット検索エンジンなどの通常利用する情報源を無作為に割り当てた。
人間の参加者をのぞいたテストでは、LLMはシナリオを正確に完了し、94.9%のケースで病状を正しく特定、平均56.3%のケースで適切な行動を選択した。しかし、参加者が同じLLMを使用した場合、関連病状の特定率は34.5%未満、適切な行動選択率は44.2%未満に低下し、対照群と同水準の結果にとどまった。30件のサブセットでは、著者らが人間とLLMの対話を手動で検証した。その結果、参加者がモデルに対して不完全または誤った情報を提供することが多い一方、LLM自体が誤解を招く情報や誤った情報を生成する場合もあることが確認された。
著者らは、現行のLLMは直接的な患者ケアへの導入準備が整っていないと結論づけている。LLMと人間のユーザーを組み合わせることで、既存のベンチマークやシミュレーションでは予測できない課題が生じるためである。
- Article
- Open access
- Published: 09 February 2026
Bean, A.M., Payne, R.E., Parsons, G. et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nat Med (2026). https://doi.org/10.1038/s41591-025-04074-y
doi: 10.1038/s41591-025-04074-y
注目の論文
-
3月5日
古生物学:中国の化石がとらえた初期の硬骨魚類における進化の証拠Nature
-
2月27日
健康:腸内環境の自宅検査キットの結果はキットやメーカーによって異なるCommunications Biology
-
2月27日
進化:古代の蚊は初期のホミニンを好むようになったScientific Reports
-
2月26日
古生物学:アルゼンチンの化石が小型恐竜の進化史を書き換えるかもしれないNature
-
2月26日
進化:多細胞化への複数の道筋Nature
-
2月25日
遺伝学:複数の集団で喫煙量の減少と関連する遺伝子変異Nature Communications
