Nature ハイライト

Cover Story:未来のマッピング:次に起こり得るあらゆることを脳が把握する方法

Nature 577, 7792

報酬予測誤差は、脳の学習過程の一部であり、ある事象の予測される結果と実際の結果との違いに相当する。強化学習の神経生理学では、神経伝達物質ドーパミンはこの学習形態に密接に関与しており、事象の結果が予想より良いとドーパミンニューロンの活性が高くなるが、予想より悪いと低くなる傾向がある。その結果、学習では、脳が、将来の事象の結果を予測する基盤として起こり得る結果の平均を評価するものと見なされてきた。今回W Dabneyたちは、脳の学習過程の全体像はもっと複雑であることを示唆している。彼らは、人工知能の分布型強化学習に着想を得て、マウスの中脳の神経活動記録を分析し、脳は、単一の平均値として未来を表現する代わりに、確率分布を用いて将来見込まれる複数の報酬を同時に効果的に検討していることを見いだした。

目次へ戻る

プライバシーマーク制度