注目の論文

コンピューターサイエンス:人工知能を活用した科学文献のレビューの改善

Nature

2026年2月5日

Computer science: Improving AI-guided reviews of scientific literature

Nature

商用大規模言語モデル(LLM:large language models)を上回る正確な文献レビューを実現するオープンソース言語モデル「OpenScholar」を報告する論文が、今週のNature にオープンアクセスで掲載される。たとえば、本研究の実験では、GPT4oが78~90%の確率で引用の幻覚(hallucinations;ハルシネーション)を生じたのに対し、OpenScholarの引用精度は人間の専門家と同等である。さらなる改良は必要かもしれないものの、このツールは科学者が複雑で増え続ける文献レビュー作業を乗り切る一助となる可能性を秘めている。

科学文献のレビューは、エビデンス(根拠)にもとづく意思決定の支援、科学プロセスの微調整、および新たな発見の方向付けにおいて重要な役割を果たす。しかし、出版物の増加により、研究者が完全に情報を把握し続けることは困難になっている。LLMは、助けとなり得るものの、限定的な引用や参考文献の幻覚といった誤りを起こしやすい。

正確で包括的かつ透明性の高い科学文献レビューを生成することを目的として、浅井 明里、Hannaneh Hajishirziら(ワシントン大学〔米国〕)は、OpenScholarを発表した。このモデルは、検索拡張(retrieval-augmented)言語モデルであり、特に科学研究タスク向けに設計されている。ほかのシステムもこの枠組みを採用しているが、著者らはこれを4500万件の最新オープンアクセス科学論文からなる専用データストアおよび自己評価メカニズムと組み合わせ、出力の精度を高めている。著者らは、文献レビュー自動化を評価するベンチマークツール「ScholarQABench」も開発した。OpenScholarは、既存のシステム(GPT4oや文献統合ツールPaperQA2)に対し、正確性でそれぞれ6.1%、5.5%の優位性を示した。さらに、OpenScholarが生成する回答は、専門のアノテーターの回答よりも約50%~70%の確率で有用性が高いと評価された。著者らは、これらの結果と引用ハルシネーションの大幅な減少が相まって、OpenScholarが将来の研究活動を支援し、加速させる可能性を示していると結論づけている。

ただし、システムには依然として限界があり、言語モデルベースのシステムでは科学文献の統合を完全に自動化できないと強調している。著者らは、継続的な研究と改良を促すため、ScholarQABenchとOpenScholarの両方をコミュニティーに公開している。

Asai, A., He, J., Shao, R. et al. Synthesizing scientific literature with retrieval-augmented language models. Nature (2026). https://doi.org/10.1038/s41586-025-10072-4
 

doi: 10.1038/s41586-025-10072-4

英語の原文

注目の論文

「注目の論文」一覧へ戻る

Nature Japanとつながろう:

advertisement
プライバシーマーク制度