コンピューターサイエンス:人工知能を活用した科学文献のレビューの改善
Nature
商用大規模言語モデル(LLM:large language models)を上回る正確な文献レビューを実現するオープンソース言語モデル「OpenScholar」を報告する論文が、今週のNature にオープンアクセスで掲載される。たとえば、本研究の実験では、GPT4oが78~90%の確率で引用の幻覚(hallucinations;ハルシネーション)を生じたのに対し、OpenScholarの引用精度は人間の専門家と同等である。さらなる改良は必要かもしれないものの、このツールは科学者が複雑で増え続ける文献レビュー作業を乗り切る一助となる可能性を秘めている。
科学文献のレビューは、エビデンス(根拠)にもとづく意思決定の支援、科学プロセスの微調整、および新たな発見の方向付けにおいて重要な役割を果たす。しかし、出版物の増加により、研究者が完全に情報を把握し続けることは困難になっている。LLMは、助けとなり得るものの、限定的な引用や参考文献の幻覚といった誤りを起こしやすい。
正確で包括的かつ透明性の高い科学文献レビューを生成することを目的として、浅井 明里、Hannaneh Hajishirziら(ワシントン大学〔米国〕)は、OpenScholarを発表した。このモデルは、検索拡張(retrieval-augmented)言語モデルであり、特に科学研究タスク向けに設計されている。ほかのシステムもこの枠組みを採用しているが、著者らはこれを4500万件の最新オープンアクセス科学論文からなる専用データストアおよび自己評価メカニズムと組み合わせ、出力の精度を高めている。著者らは、文献レビュー自動化を評価するベンチマークツール「ScholarQABench」も開発した。OpenScholarは、既存のシステム(GPT4oや文献統合ツールPaperQA2)に対し、正確性でそれぞれ6.1%、5.5%の優位性を示した。さらに、OpenScholarが生成する回答は、専門のアノテーターの回答よりも約50%~70%の確率で有用性が高いと評価された。著者らは、これらの結果と引用ハルシネーションの大幅な減少が相まって、OpenScholarが将来の研究活動を支援し、加速させる可能性を示していると結論づけている。
ただし、システムには依然として限界があり、言語モデルベースのシステムでは科学文献の統合を完全に自動化できないと強調している。著者らは、継続的な研究と改良を促すため、ScholarQABenchとOpenScholarの両方をコミュニティーに公開している。
- Article
- Open access
- Published: 04 February 2026
Asai, A., He, J., Shao, R. et al. Synthesizing scientific literature with retrieval-augmented language models. Nature (2026). https://doi.org/10.1038/s41586-025-10072-4
OpenScholar, an open-source language model that can outperform commercial large language models (LLMs) in performing accurate literature reviews is presented in Nature this week. For example, while GPT4o hallucinated citations around 78–90% of the time in experiments carried out as part of this study, OpenScholar’s citation accuracy is similar to that of human experts. Although further improvements may be needed, the tool has the potential to help scientists navigate the complex, ever-growing task of scientific literature review.
Reviewing scientific literature has an important role in supporting evidence-based decisions, fine-tuning scientific processes, and directing new discoveries. However, the increasing volume of publications makes it difficult for researchers to stay fully informed. LLMs may be of assistance, but they are prone to errors such as limited attribution and reference hallucinations.
With the goal of generating accurate, comprehensive, and transparent scientific literature reviews, Akari Asai, Hannaneh Hajishirzi and colleagues present OpenScholar. The model is a retrieval-augmented language model, specifically designed for scientific research tasks. Other systems have used this framework, but the authors combine it with a specialized data store of 45 million up-to-date open-access scientific papers and a self-assessment mechanism to refine its output. The authors also create a benchmarking tool called ScholarQABench to evaluate literature review automation. OpenScholar is shown to outperform existing systems such as GPT4o and PaperQA2 (a tool designed for literature synthesis) in correctness by 6.1% and 5.5%, respectively. In addition, OpenScholar generates answers that are more helpful than those produced by expert annotators around 50% to 70% of the time. These results, together with the substantial reduction in citation hallucinations, demonstrate the potential of OpenScholar to support and accelerate future research efforts, the authors conclude.
However, they note that the system still has limitations and emphasize that language model-based systems cannot fully automate scientific literature synthesis. They are making both ScholarQABench and OpenScholar available to the community to encourage ongoing research and refinement.
- Article
- Open access
- Published: 04 February 2026
Asai, A., He, J., Shao, R. et al. Synthesizing scientific literature with retrieval-augmented language models. Nature (2026). https://doi.org/10.1038/s41586-025-10072-4
doi: 10.1038/s41586-025-10072-4
「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。
