人工知能:DeepSeek-R1 AIモデルの背後にある科学
Nature
2025年9月18日
今年初めに公開されたオープン人工知能(AI:artificial intelligence)モデルDeepSeek-R1における大規模推論モデルの訓練手法を報告する論文が、今週のNature にオープンアクセスで掲載される。大規模言語モデル(LLM:large language model)の推論能力は純粋な強化学習によって向上し、モデルの性能向上に必要な人的介入を削減できることが示された。その結果、得られたモデルは、数学、コーディング競技、およびSTEM(science, technology, engineering and mathematics;科学・技術・工学・数学)分野の大学院レベルの問題などにおいて、従来の手法で訓練されたLLMよりも優れた性能を発揮する。
AIモデルに人間と同様の推論能力を習得させることはこれまで困難であった。LLMはある程度の推論能力を示しているが、訓練には膨大な計算資源を要する。人間によるプロンプトでモデルに中間推論ステップの生成を促すことで、複雑なタスクでの性能を大幅に向上させられる。しかし、この手法は計算コストが高くなりやすく、スケーリングの可能性を制限する。
DeepSeek-R1は、推論プロセスを改善するため、人間の監督下での追加訓練の段階が導入されている。Zhen Zhangら(DeepSeek-AI チーム〔中国〕)は、このモデルが人間の例ではなく、強化学習を用いて推論ステップを開発することで、訓練コストと複雑さを削減したと報告している。DeepSeek-R1には、優れた問題解決例が示され、その後推論プロセスを生成するためのテンプレートが与えられる。モデルは、問題解決によって報酬を受け取り、学習が強化される。AI性能評価用に設計された数学ベンチマークテストでは、DeepSeek-R1-ZeroとDeepSeek-R1がそれぞれ77.9%、79.8%のスコアを達成した。さらに、コーディング競技や大学院レベルの生物学、物理学、および化学の問題においても良好な性能を示したと、著者らは付け加える。
現行版のDeepSeek-R1には、機能制限があり、著者らは今後のバージョンで改善を目指す。例えば、モデルが言語を混在させるケースが時折見られ、現時点で中国語と英語のみに最適化されている。また、プロンプトの影響を受けやすく、慎重なプロンプト設計が求められるほか、ソフトウェア工学といった分野では著しい改善が未だ見られていないタスクも存在する。最後に著者らは、タスクの推論と結果の信頼性を確保するため、報酬プロセスの改善に焦点を当てた今後の研究が必要であると結論づけている。
- Article
- Open access
- Published: 17 September 2025
Guo, D., Yang, D., Zhang, H. et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature 645, 633–638 (2025). https://doi.org/10.1038/s41586-025-09422-z
doi:10.1038/s41586-025-09422-z
「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。
注目のハイライト
-
人工知能:DeepSeek-R1 AIモデルの背後にある科学Nature
-
医療科学:医療を導くAIツールNature
-
気候変動:温暖化によるサンゴ礁の緩衝機能の危機Nature
-
神経科学:繰り返される頭部外傷は若年アスリートの脳細胞を変化させるNature
-
古生物学:初期のドーム頭を持つ恐竜Nature
-
健康:長期的なコロナウイルス感染症の後遺症は月経障害と関連するNature Communications