人工知能:DeepSeek-R1 AIモデルの背後にある科学
			Nature
			
		
 
	今年初めに公開されたオープン人工知能(AI:artificial intelligence)モデルDeepSeek-R1における大規模推論モデルの訓練手法を報告する論文が、今週のNature にオープンアクセスで掲載される。大規模言語モデル(LLM:large language model)の推論能力は純粋な強化学習によって向上し、モデルの性能向上に必要な人的介入を削減できることが示された。その結果、得られたモデルは、数学、コーディング競技、およびSTEM(science, technology, engineering and mathematics;科学・技術・工学・数学)分野の大学院レベルの問題などにおいて、従来の手法で訓練されたLLMよりも優れた性能を発揮する。
AIモデルに人間と同様の推論能力を習得させることはこれまで困難であった。LLMはある程度の推論能力を示しているが、訓練には膨大な計算資源を要する。人間によるプロンプトでモデルに中間推論ステップの生成を促すことで、複雑なタスクでの性能を大幅に向上させられる。しかし、この手法は計算コストが高くなりやすく、スケーリングの可能性を制限する。
DeepSeek-R1は、推論プロセスを改善するため、人間の監督下での追加訓練の段階が導入されている。Zhen Zhangら(DeepSeek-AI チーム〔中国〕)は、このモデルが人間の例ではなく、強化学習を用いて推論ステップを開発することで、訓練コストと複雑さを削減したと報告している。DeepSeek-R1には、優れた問題解決例が示され、その後推論プロセスを生成するためのテンプレートが与えられる。モデルは、問題解決によって報酬を受け取り、学習が強化される。AI性能評価用に設計された数学ベンチマークテストでは、DeepSeek-R1-ZeroとDeepSeek-R1がそれぞれ77.9%、79.8%のスコアを達成した。さらに、コーディング競技や大学院レベルの生物学、物理学、および化学の問題においても良好な性能を示したと、著者らは付け加える。
現行版のDeepSeek-R1には、機能制限があり、著者らは今後のバージョンで改善を目指す。例えば、モデルが言語を混在させるケースが時折見られ、現時点で中国語と英語のみに最適化されている。また、プロンプトの影響を受けやすく、慎重なプロンプト設計が求められるほか、ソフトウェア工学といった分野では著しい改善が未だ見られていないタスクも存在する。最後に著者らは、タスクの推論と結果の信頼性を確保するため、報酬プロセスの改善に焦点を当てた今後の研究が必要であると結論づけている。
- Article
- Open access
- Published: 17 September 2025
Guo, D., Yang, D., Zhang, H. et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature 645, 633–638 (2025). https://doi.org/10.1038/s41586-025-09422-z
 
The methodology used to train a large-scale reasoning model in DeepSeek-R1, the open artificial intelligence (AI) model released earlier this year, is published in Nature this week. The reasoning ability of the large language model (LLM) is shown to be improved by pure reinforcement learning, reducing the amount of human input needed to enhance the performance of the model. The resulting model performs better at tasks such as mathematics, coding competitions, and STEM field graduate-level problems than conventionally trained LLMs.
Teaching AI models to reason in the same way as humans has been challenging. LLMs have demonstrated some reasoning abilities, but training requires substantial computational resources. Such models can be improved by human prompts to encourage models to produce intermediate reasoning steps, thereby substantially enhancing their performance on complex tasks. However, this approach can become computationally expensive and limits scaling potential.
DeepSeek-R1 includes a stage of further training under human supervision to improve the reasoning process. The model uses reinforcement learning instead of human examples to develop reasoning steps, which reduces training costs and complexity, Zhen Zhang and colleagues report. DeepSeek-R1 is shown good examples of problem solving and is then given a template to produce a reasoning process. The model is rewarded for solving problems, thus reinforcing the learning. In benchmark mathematics evaluation tests designed to evaluate AI performance, DeepSeek-R1-Zero and DeepSeek-R1 achieved scores of 77.9% and 79.8%, respectively. The model also achieves favourable performance in coding competitions and graduate-level biology, physics and chemistry problems, the authors add.
The current version of DeepSeek-R1 has some capability limitations, which the authors hope to address in future iterations. For instance, the model sometimes mixes languages and is currently only optimized for Chinese and English. It is also sensitive to prompts, requiring thoughtful prompt engineering, and there are some tasks that the model is yet to show notable improvements on, such as software engineering. Finally, future research should focus on improving the reward process to ensure that the reasoning and outcomes of tasks are reliable, the authors conclude. 
 
doi: 10.1038/s41586-025-09422-z
「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

