Nature ハイライト

Cover Story:自律的に学ぶ:AIが強化学習によって自己改善方法を学ぶ

Nature 645, 8081

大規模言語モデル(LLM)は、解を導くための手順を明示するよう訓練できると、問題解決能力が向上する傾向がある。この種の「推論」は人間がより複雑な問題に取り組むやり方と似ているが、標識付けや注釈付けのために人間の介入が必要で、人工知能にとっては大きな課題である。今週号では、DeepSeek社の研究者たちが、人間の介入を最小限に抑えつつLLMがこうした推論を行うよう訓練する方法を明らかにしている。LLMモデルであるDeepSeek-R1は、数式問題を正しく解いた際には高いスコアという報酬を与えられ誤った解答の場合には罰せされる、という強化学習を用いて訓練された。その結果、DeepSeek-R1は、段階的に問題に取り組みその過程を明らかにする手順を踏む「推論」が正答につながりやすいことを学習した。これによりDeepSeek-R1は、自己検証や自己省察を行って、新たな問いに答える前に自らの手順を点検してから解答を出すようになり、その結果、コーディングや大学院レベルの科学問題の成績が向上した。

2025年9月18日号の Nature ハイライト

目次へ戻る

プライバシーマーク制度