注目の論文

計算機科学：過去の状態に立ち返る手法で複雑な課題を解決するAI

Nature

2021年2月25日

Computer science: AI revisits its past to solve complex tasks

アタリ社の「モンテスマの復讐（Montezuma’s Revenge）」や「ピットフォール（Pitfall）」などの古典的なビデオゲームで、人間のプレイヤーや最先端の人工知能システムよりも高いスコアを達成する強化学習アルゴリズムのファミリー「Go-Explore」について報告する論文が、今週、Nature に掲載される。このアルゴリズムは、複雑な環境をよりよく探索するための方法になっており、真にインテリジェントな学習エージェントの作成に向けた重要な一歩となる可能性がある。

強化学習は、人工知能システムが、複雑な環境を探索し理解した上で決定を下し、最適な報酬の獲得法を学習できるようにするためのトレーニングに使うことができる。この報酬には、ビデオゲームでロボットが特定の場所に到達することや1つのレベルを完了することなどがある。しかし、既存の強化学習アルゴリズムは、フィードバックがほとんど得られない複雑な環境では悪戦苦闘すると考えられている。

今回、Adrien Ecoffet、Joost Huizingaたちの研究チームは、効果的な探索を実現する上での主な2つの課題を突き止め、これらの課題に対処するアルゴリズムのファミリーであるGo-Exploreを発表した。Go-Exploreは、環境を徹底的に探索し、環境内の位置関係を記憶するために役立つアーカイブを構築して、有望な中間段階や良好な結果（報酬）に至る経路を忘れないようにする。今回の研究では、これまで突破できなかったAtari 2600のゲームを全て攻略するためにGo-Exploreを使って、その可能性を実証した。Go-Exploreは、Montezuma’s Revengeでの過去最高スコアの4倍をマークし、Pitfallでは人間のプレイヤーの平均パフォーマンスを上回った（ちなみに、従来のアルゴリズムはPitfallで1点も得点できなかった）。さらに、Go-Exploreは、ロボットアームで物体を拾い上げ、4つの棚のいずれかに置かなければならず、そのうちの2つの棚が掛け金の掛かったドアの奥に設置されているというロボットタスクのシミュレーションも突破した。

Ecoffetたちは、有望な探索領域を記憶しておいて、そこに立ち戻るという単純な原理は、強力で一般的な探索手法であることを指摘した上で、今回の論文で発表したアルゴリズムをロボット工学、言語理解、薬剤設計に応用できるという考えを示している。

doi: 10.1038/s41586-020-03157-9

英語の原文

注目の論文

6月4日

天文学：木星の磁場における電子加速の観測Nature
6月3日

ロボット工学：水から上がった魚のように歩くロボットNature Communications
5月28日

社会科学：オンライン上の児童の搾取と虐待に関する調査Nature
5月28日

天文学：高赤方偏移の「小さな赤い点」におけるブラックホール質量の直接測定Nature
5月22日

考古学：大ピラミッドに秘められた耐震性の謎Scientific Reports
5月21日

工学：装着型ロボット装置が小児の神経筋機能の回復を促進するNature

「注目の論文」一覧へ戻る

計算機科学：過去の状態に立ち返る手法で複雑な課題を解決するAI

Computer science: AI revisits its past to solve complex tasks

注目の論文

天文学：木星の磁場における電子加速の観測Nature

ロボット工学：水から上がった魚のように歩くロボットNature Communications

社会科学：オンライン上の児童の搾取と虐待に関する調査Nature

天文学：高赤方偏移の「小さな赤い点」におけるブラックホール質量の直接測定Nature

考古学：大ピラミッドに秘められた耐震性の謎Scientific Reports

工学：装着型ロボット装置が小児の神経筋機能の回復を促進するNature