News & Views

知覚情報をもとに自ら学習する人工知能

コンピューターゲームのプレイ方法を、深層学習と強化学習によって自ら学習する人工知能が開発された。この人工知能は、古典的な49種類のコンピューターゲームのうち29種類でプロのゲーマーと同等以上の成績を収め、人工知能がさまざまなタスクに適応可能なことを実証した。

大量のデータが処理できるようになったことで、それに関連した多くの研究分野も発展してきた。人工知能（AI）もその1つである。機械学習の進歩に伴い、明確にプログラムすることで機械に知的な行動をとらせるのではなく、知的行動を直接データから学習することができる機械が開発されるようになった。例えば、「ビッグ・データ」の出現により、かなりの正確性をもって物体や音を認識できるシステムが登場した。そうした中、グーグル・ディープマインド社（英国）のVolodymyr Mnihら¹は、大規模データセットを使用して、家庭用ゲーム機アタリ（Atari）2600の49種類の古典的なコンピューターゲームの攻略法を自ら編み出すことができるエージェント（自律的に各種処理を行う仮想代理人ソフトウエア）を開発し、Nature 2015年2月26日号529ページに報告した。このエージェントは、ゲーム画面上のピクセルを見ることで、どう動けばゲームスコアを上げることができるか自分で学習し、何種類ものゲームでプロのゲーマーを打ち負かした。これはAIの進歩の中でも、驚くべき例といえる。

機械学習では、システムを、観察データからパターンを推論するよう訓練する。入力と出力間の関係をマッピングするような特に単純なタイプのパターンは、「教師あり学習」と呼ばれるプロセスを介して学習できる。教師あり学習システムでは、AIは「例となる入力」と「例に対応する出力」からなる訓練データを与えられ、それらのデータを説明付けるモデル（有用な特徴）を考え出す（このプロセスは、関数近似と呼ばれる）。このプロセスでAIは、システムの設計者によって設定されたモデルをクラス分類されたものの中から選び出すという作業を行う。それ故、このクラスの設計には高度な技術を要する。クラスのサイズと複雑さには利用できる訓練データの量が反映されていなければならないし、その内容にはシステム設計者が目の前の問題の解決に役立つと考える「既存の知識」が反映されていなければならないからだ。これら全てがうまく行われれば、導き出されたモデルは訓練データセットだけでなく、同様の基本パターンを固守する他のデータにも適用できるといえる。

データセットが急速に増加したことで、機械学習は、複雑なモデルのクラスを複数利用できるようになり、その結果、非常に重要な推論問題に取り組むことが可能になった。通常、推論問題にはいくつかの特徴がある。①データが多次元であること、②基本となるパターンが複雑であること（例えば、非線形である、可変的であるなど）、③設計者は問題に関する詳しい知識を事前にほとんど持っていないこと、とりわけ機構に関する理解が欠けていること、などが挙げられる。

人間の脳は、日常生活の中で、重要な推論問題を繰り返し解決し、高次元の知覚データを解釈して、体中の筋肉を最もうまく制御する方法を決定している。こんな芸当は、単純な教師あり学習だけではできるようにならないのは明白である。私たちは、この方法を自分で学習している。つまり、「教師」に仮想の入力–出力関数からの出力を教えてもらわなくても、自分で学習して強化しているのだ。というわけで単純な教師あり学習で予測精度が向上しない場合は、「強化」が学習行動で中心的役割を持つようになる。機械学習では、この考え方が採用され、強化学習アルゴリズムが開発された。このアルゴリズムでは、「教師」は数的報酬信号の形であり²、システムにとっての目標は、現状を考慮して、報酬の蓄積量を最終的に最大にするためにはどの動きをするのがよいかを決める方策を学習することである。

**図1：コンピューター・ゲーマー**
Mnihら¹は、「ディープQネットワーク（DQN）」を使用して49種類のテレビゲームの攻略法を学習する人工知能システムを設計した。DQNは、連続した4コマのゲームスクリーンを同時に分析する。そして、とり得る動き1つ1つに対し、ある動きを選択してその次に最良の動きをしたならば、将来のゲームスコアが最高になると見込まれる結果を近似する。DQNの最初の層は、ゲームスクリーンのピクセルを分析して、特殊化した視覚的特徴をどんどん抽出していく（画像の「畳み込み」という）。さらに、接続されている隠れ層が、抽出された特徴から「動きによって生じる価値」を予測する。最後の層は出力、つまりDQNがとる動きである。システムからの出力結果は、プレイするゲームごとに異なるが、出力結果以外は、49種のゲームのどれでも同じである。

今回Mnihらは、システムにアタリ2600の49種類の古典的なコンピューターゲームのプレイ方法を教えるために、強化学習の一種であるQ学習³を用いて、システムに数的報酬であるゲームスコアを増加させる方法を学ばせた。Q学習では、Q*(s,a)は、状態sでシステムが最初にaという動きをし、引き続き最適な方策に従うならば、蓄積された報酬はQ*になるはず、ということを表している。システムは、多層の人工ニューラルネットワーク（生物学的神経ネットワークから着想を得た関数近似器）を使用して深層学習（deep learning）することで、Q*の値に近づこうと試行錯誤する。Mnihらのニューラルネットワークは、Q学習を組み合わせていることからディープQネットワーク（DQN）と呼ばれている。DQNの入力（4コマの連続したゲームスクリーンから得たピクセル）は、接続されたコンピューターの「隠れ」層で処理される。隠れ層は、特殊化した視覚的特徴をどんどん抽出していき、入力と、可動域で特定の動きを選択する価値（value）との間の複雑な非線形のマッピングの近似を助ける。例えば、スペースインベーダー・ゲームをプレイしているときに、実行可能な動き1つ1つについて価値を評価することなどだ（図1）。

システムは、ゲームの報酬構造に関する自らの知識を利用してQ*の現在の推定値を導き出し、それに基づいて出力動作を選ぶ。そして、予測された最良の動きをランダムな動きに混ぜて、未踏の領域を探検する。するとゲームはそれに応じて、次のゲームスクリーンへと移り、報酬信号としてゲームスコアを変化させる。ネットワークは入力と報酬を使用してDQNパラメーターを定期的にアップデートし、Q*により近づこうとする。これを正確に実行するために非常に多くの思考がつぎ込まれたと考えられる。エージェントは自身のトレーニングデータを時間経過に即して集めるからだ。従って、データは統計的な観点からみて独立性が保証されておらず、統計理論のほとんどは適用されないと考えられる。著者らは、システムのメモリーに過去の経験を格納し、次にそれらに基づいて再訓練した。彼らはこの手順を、睡眠中の海馬のプロセスに例える。また彼らは、得た経験をランダムに並べ替えることが、システムにとって有用であると報告している。

Mnihらの論文には興味深い側面がいくつかある。第1に、システムの性能は人間のプロのゲーマーに匹敵していること、第2に、この手法は非常に優れた適応性を示すことだ。各システムは1つのゲームから得たデータを使用して訓練され、システム設計に使われた既存の知識は49種のどのゲームについても本質的に同じだった。つまり、各システムの基本的な違いは学習に使われたデータだけだったのである。第3に、使用された主要な方法は、過去数十年間使われてきたものであることだ。それ故になおさら、Mnihらの功績は賞賛に値するものといえる。

Mnihらのシステムや、別のDQNシステム⁴において、目覚ましい性能をもたらした要因は一体何だろうか？　それは、ディープネットワークを使用して改良された関数近似と大きく関わっているのだろう。今回エミュレーターによって作り出されたゲームスクリーンのサイズは、システムによって84×84ピクセルにまで縮小させたにもかかわらず、推論問題の次元数は、強化学習の既知のアプリケーションの大部分よりもはるかに高い。さらに、Q*の非線形性も高いため、近似器として用いるためには非常に多くの非線形関数のクラスの使用が求められる。つまり、このタイプの近似が正確に行えるのは、膨大なデータセット（ゲーム・エミュレーターなら生産できる）と、最先端の機能学習、そしてかなりの計算力が使用できる場合だけである。

それでも、基本的な問題がいくつか未解決のままだ。私たちは、強化学習を従属データから数学的に理解して、証明可能なアルゴリズムを開発することができるのだろうか？　例えば、あるピクセルが他のピクセルに影響を及ぼす場合、どのピクセルが原因なのかを類型化するには、統計学的な関連を学習するだけで十分なのか、あるいは基礎となる原因構造を考慮する必要があるかは分かっていない。こうした問題が解決されれば、状態空間の関連領域を見つけるのに役立つ可能性がある。例えば、スペースインベーダーでのエイリアンのような、意味を持つエンティティー（ゲーム内で実体化可能な要素）を形成するピクセルのセットを特定するといったことだ。つまり、「迷信」行動（統計学的関連を因果関係と誤って解釈すること）を避けたり、データセットのシフト（例えば、ゲームキャラクターの行動や見た目が変わることなど）に関してシステムをもっと頑強にしたりすることにつながるかもしれない^3,5,6。

取り組むべき問題はまだある。私たちは潜在的な学習を行っている。つまり、生物学的システムは全く報酬が存在していないときにも学習する、という事実をどのように扱うべきなのだろうか？　この問題は、意味を持たない莫大な情報の中に、次元数がさらに高く、重要な報酬値が隠されているようなケースを扱うのに役立つのだろうか？

初期のAIは、プロのチェスプレーヤーを負かすことが究極の基準とされていたが、この目標はすでに達成されている。コンピューターにとって他の問題の方がはるかに困難であることが理解されるにつれ、目標は移行してきた。コンピューターは、高次元でノイズの多い入力が関わる問題がとりわけ苦手だ。これこそが現実世界の問題であり、こうした問題については、生物学的知覚–行動システムの方が勝っている。しかし、新たな成果により、機械学習は従来の工学的方法をしのぐようになった。Mnihらは、今回の研究に正しいツールを選んだかもしれない。テレビゲームのセットはチェスよりも現実世界のより良いモデルとなるだろう。少なくとも、AIが関係している場面では。

翻訳：古川奈々子

Nature ダイジェスト Vol. 12 No. 5

DOI: 10.1038/ndigest.2015.150529

原文

Learning to see and act

Nature (2015-02-26) | DOI: 10.1038/518486a
Bernhard Schölkopf
Bernhard Schölkopfは、マックス・プランク・インテリジェントシステム研究所（ドイツ）に所属。
関連ビデオ： Inside DeepMind（Nature Video）

参考文献

Mnih, V. et al. Nature 518, 529–533 (2015).
Sutton R. S. & Barto A. G. Reinforcement Learning: An Introduction (MIT Press, 1998).
Watkins, C. J. C. H. Learning from Delayed Rewards. PhD thesis, Univ. Cambridge (1989).
Guo, X., Singh, S., Lee, H., Lewis, R. L. & Wang, X. Adv. Neural Inf. Process. Syst. 27 (2014).
Bareinboim, E. & Pearl, J. in Proc. 25th AAAI Conf. on Artificial Intelligence 100–108 (2011).
Scholkopf, B. et al. in Proc. 29th Int. Conf. on Machine Learning 1255–1262 (Omnipress, 2012).