Nature ハイライト

Cover Story：自律的に学ぶ：AIが強化学習によって自己改善方法を学ぶ

2025年9月18日 Nature 645, 8081

大規模言語モデル（LLM）は、解を導くための手順を明示するよう訓練できると、問題解決能力が向上する傾向がある。この種の「推論」は人間がより複雑な問題に取り組むやり方と似ているが、標識付けや注釈付けのために人間の介入が必要で、人工知能にとっては大きな課題である。今週号では、DeepSeek社の研究者たちが、人間の介入を最小限に抑えつつLLMがこうした推論を行うよう訓練する方法を明らかにしている。LLMモデルであるDeepSeek-R1は、数式問題を正しく解いた際には高いスコアという報酬を与えられ誤った解答の場合には罰せされる、という強化学習を用いて訓練された。その結果、DeepSeek-R1は、段階的に問題に取り組みその過程を明らかにする手順を踏む「推論」が正答につながりやすいことを学習した。これによりDeepSeek-R1は、自己検証や自己省察を行って、新たな問いに答える前に自らの手順を点検してから解答を出すようになり、その結果、コーディングや大学院レベルの科学問題の成績が向上した。

2025年9月18日号の Nature ハイライト

目次へ戻る

Cover Story：自律的に学ぶ：AIが強化学習によって自己改善方法を学ぶ

2025年9月18日号の Nature ハイライト

量子コンピューティング：超伝導キュービットによる色符号の実現

量子コンピューティング：捕捉された中性原子による魔法状態の蒸留

量子シミュレーション：有限温度で安定なトポロジカルエッジモード

生体工学：ソフトファイバー状のセンサーデバイス

生体工学：センシングおよび刺激伝達用のソフトファイバーデバイス

生物地球化学：過去25億年にわたる地球の酸素レベル

生態学：超深海海溝で化学合成生物を発見

古生物学：細工は流々、仕上げに顎を

遺伝学：英国バイオバンクが約50万人の全ゲノムを公開

神経変性：脳内のLiの欠乏が、アルツハイマー病発症に関係

神経科学：眠気はミトコンドリアのせい

神経科学：腸は微生物を「感じて」摂食を調節する

植物免疫学：植物に幅広い病原体に対する抵抗性を付与する組換え戦略

微生物学：蚊に天然に存在するバリアントを用いたマラリア原虫感染防御

創薬：結核治療に有望な新規化合物CMX410

生物工学：DNAメチル化の変動パターンによる転帰予測

がん：V(D)J組換えの副産物は白血病再発と関連する

免疫学：内因性低分子RNAの免疫感知を防ぐN-グリコシル化

生物工学：細胞表面でタンパク質を連結して活性なタンパク質を作るシステム

ネイチャーの人気コンテンツ