Nature ハイライト

計算科学:モデルに基づく強化学習

Nature 588, 7839

チェッカー、チェス、囲碁、ポーカーなど、古典的なゲームで人間の世界チャンピオンを打ち負かした人工知能アルゴリズムは、ツリーベースの計画法を使っていた。計画アルゴリズムは、特定の領域では成功を収めているものの、ゲームのルールといった環境の力学についての知識に依存しており、これが、通常そうした力学が未知であるロボティクスや知的アシスタントなどの実世界領域への直接応用の妨げとなっている。今回D Silverたちは、MuZeroという、ツリーベースの探索と学習済みモデルを組み合わせた、モデルに基づく強化学習アルゴリズムを報告している。MuZeroアルゴリズムは、難易度が高く視覚的に複雑なさまざまな領域において、背景にある力学に関する知識を用いずに、超人的な性能を達成した。

目次へ戻る

プライバシーマーク制度