Nature

Cover Story: 自律的に学ぶ:AIが強化学習によって自己改善方法を学ぶ

Nature 645, 8081 (2025年9月18日)

大規模言語モデル(LLM)は、解を導くための手順を明示するよう訓練できると、問題解決能力が向上する傾向がある。この種の「推論」は人間がより複雑な問題に取り組むやり方と似ているが、標識付けや注釈付けのために人間の介入が必要で、人工知能にとっては大きな課題である。今週号では、DeepSeek社の研究者たちが、人間の介入を最小限に抑えつつLLMがこうした推論を行うよう訓練する方法を明らかにしている。LLMモデルであるDeepSeek-R1は、数式問題を正しく解いた際には高いスコアという報酬を与えられ誤った解答の場合には罰せされる、という強化学習を用いて訓練された。その結果、DeepSeek-R1は、段階的に問題に取り組みその過程を明らかにする手順を踏む「推論」が正答につながりやすいことを学習した。これによりDeepSeek-R1は、自己検証や自己省察を行って、新たな問いに答える前に自らの手順を点検してから解答を出すようになり、その結果、コーディングや大学院レベルの科学問題の成績が向上した。

今週の目次とハイライト The Nature Top Ten バックナンバー

Nature注目のハイライト

その他のハイライト

Nature 創刊150周年記念特集

Nature ダイジェスト

Nature は次に何をすべきか

2020年4月号

Nature が150周年を迎えたのを機に、その価値観と、Nature を改善する方法について考えることにした私たちは、読者の意見をどうしても聞きたくて、アンケート調査を実施しました。

イベントレポート

日本の科学の未来
― 持続可能な開発目標の達成に向けたビジョン ―

1869年創刊のNature は今年150周年を迎える。これを記念するシンポジウムが東京大学安田講堂で開催され、日本の科学のトップランナーである大隅良典氏、柳沢正史氏や、Nature 編集長のMagdalena Skipperらが集った。日本の科学の未来を各氏はどう見ているか。自らの研究や体験をもとに語り、意見が交換された。

Nature 創刊150周年記念特集

著者インタビュー

柳沢 正史氏

「私」とNature  混沌状態をすっきりさせるような研究が好き

長田 重一氏

長田重一大阪大学免疫学フロンティア研究センター教授は、アポトーシス(プログラム細胞死)の分子メカニズムの解明など、すばらしい業績を残してきた。いくつもの論文が引用ランキングに並ぶ。その始まりは、1980年に成功したインターフェロンα遺伝子のクローニングだった。

柳沢 正史氏

「私」とNature  “ねむけ”の謎を解明したい

柳沢 正史氏

筑波大学大学院時代に見つけた血管収縮物質が世界の研究者の注目を集め、米国テキサス大学にスカウトされて1991年に渡米。後を追って留学してきた後輩の櫻井武(現・筑波大学 国際統合睡眠医学科研究機構;IIIS)とともにオレキシンを発見する。この脳内の神経伝達物質が睡眠と覚醒に関係していることから、本格的に睡眠学の研究を開始。現在IIISを主宰して、「ねむけとは何か」の解明を目指している。

その他のNature 著者インタビュー

Nature Café

ネイチャー・リサーチが主催するサイエンスカフェです。グローバルな視点から様々な分野のサイエンスについて、カジュアルな雰囲気の中、一緒に語り合います。

その他のイベント

研究者の皆様

Nature 購読者の皆様への情報、また、Nature に論文投稿をお考えの方、すでに Nature に論文が掲載された著者の皆様に、リプリントサービスや購読特典をご紹介いたします。

著者の皆様へ
投稿サイト

プライバシーマーク制度