News

独習で最強になった囲碁AI

人工知能プログラム「アルファ碁ゼロ」は、人間の棋譜を学ぶことなく、短期間で囲碁を独習した。

グーグル社（米国カリフォルニア州マウンテンビュー）傘下のディープマインド社（DeepMind；英国ロンドン）の人工知能（AI）プログラム「アルファ碁ゼロ」が、人間の棋譜を学ぶことなく囲碁を独習し、人間をはるかに凌駕するレベルに到達したという報告が、Nature 2017年10月19日号354ページに掲載された¹。AIが人間からの情報提供なしに独習できるようになることは、どんな仕事でも託せる夢の汎用人工知能の実現を目指す上で極めて重要なステップだ。

Natureの論文発表の記者会見に臨んだディープマインド社の共同設立者で最高経営責任者のDemis Hassabisは、「そう遠くない将来、タンパク質の折りたたみや材料研究などの科学分野の難問に挑むプログラムが可能になるでしょう。私たちのプログラムが、現実の問題を扱う中で実際に進歩できるレベルまでになったことを非常に嬉しく思っています」と語った。

同社のそれまでの囲碁AIは、囲碁の熟練者による10万局以上の対局の棋譜を使っていた。一方、最新のプログラム「アルファ碁ゼロ」は、白紙の状態でランダムに指すことから出発し、自分自身と対局することで学習していった。そして、40日間の訓練と3000万局の対局の後に、アルファ碁ゼロはそれまで世界最高の「棋士」だった同社のAI「アルファ碁マスター」（2016年末にネットの囲碁対戦サイトに突如現れ、世界トップクラスの棋士を次々と打ち負かした）に勝てるまでになった。さらに、最初のバージョンの「アルファ碁」（Natureダイジェスト 2016年3月号「人工知能が囲碁をマスター」参照）には100戦して100勝している²。

アレン人工知能研究所（米国ワシントン州シアトル）の最高経営責任者Oren Etzioniによると、強化学習と呼ばれるこの手法を成功させるのは困難で、多くの資源を必要とする。彼は、ディープマインド社の研究チームが、以前のバージョンよりも少ない訓練時間と少ないコンピューティングパワーで、それらを超えるアルゴリズムを構築してのけたのは「驚異的としか言いようがない」と舌を巻く。

最高の戦略家

囲碁は古い歴史を持つ中国生まれの戦略ゲームで、碁盤の上に黒と白の碁石を交互に並べていき、盤面のより広い領域を占めた方が勝ちになる。アルファ碁ゼロは、以前のバージョンと同じように、脳の構造をヒントにした「深層ニューラルネットワーク」というAIを利用して盤面から抽象概念を学習する。最初に囲碁のルールだけを教えられたアルファ碁ゼロは、その後は試行錯誤によって学習し、対局が終わるたびに、有効だった指し手に関する情報をフィードバックして自分自身を改良していった。

アルファ碁ゼロの学習過程は、最初のうちは人間が囲碁を学ぶ過程とよく似ていた。人間の初心者にしばしば見られるように貪欲に石を取ろうとしていたのである。しかし、3日後には囲碁の熟練者が用いる複雑な戦術をマスターした。「人類が数千年かけて蓄積してきた知識を、AIが再発見していったのです」とHassabis。40日後には、アルファ碁ゼロは人間が見たことのない指し手を編み出していた。

アルファ碁の開発チームを率いるディープマインド社の科学者David Silverは、前述の記者会見で、「AIの能力は終始一貫して進歩するわけではないため、純粋な強化学習を用いるアプローチは困難でした」と説明している。AIプレーヤーはしばしば自分の前のバージョンには勝てても、それより前のバージョンに勝つ方法を忘れてしまう。アルファ碁ゼロは、彼らのプロジェクトの中で初めて「完全に白紙の状態から学習することができる、本当に安定な、真の強化学習を行っているのです」とSilver。

アルファ碁ゼロの前のバージョンでは、独立した2つのニューラルネットワークを使用していた。1つは最善と思われる指し手を予想するもので、もう1つは、これらの指し手の中でどれが最も勝ちそうであるかを評価するものだ。後者の予想に用いられたのが、高速でランダムな対局を多数行って生じ得る結果を評価する「ロールアウト」という手法だった。一方、アルファ碁ゼロが使用しているニューラルネットワークは1つだけで、個々の局面から生じ得る結果を探索するのではなく、単に勝者を予測する。Silverはこれを、100人の下手なプレーヤーに頼るのではなく、1人の熟練者に予想してもらうことに例える。「1人の強い熟練者の予想の方が、はるかに頼りになると考えるからです」。

これらの機能を1つのニューラルネットワークにまとめることで、アルゴリズムを強くするのと同時に、その効率を飛躍的に高めることができた、とSilverは言う。それにはやはり莫大なコンピューティングパワーが必要であり、機械学習専用チップ「テンソル処理ユニット（tensor processing unit：TPU）」を4つ、Hassabisの見積もりによれば2500万ドル（約28億円）相当のハードウエアを使っている。しかし、前のバージョンのアルファ碁で使っていたチップ数は、その10倍だった。また、アルファ碁ゼロが囲碁を月単位ではなく日単位で独習できたことは、「コンピューティングパワーやデータの量よりもアルゴリズムの方がはるかに重要であることを示しています」とSilverは話す。

アルファ碁の次の重要なステップは、ゲームの規則をAIが自分で学習することだ。実は、ディープマインド社の別のAIが、2015年にアーケードゲームにおいてこれを成功させている（Nature ダイジェスト 2015年5月号「知覚情報をもとに自ら学習する人工知能」参照）。Hassabisは、やがてはアルファ碁ゼロもこれができるようになると予想している。「学習時間はだいぶ長くなるでしょうが、きっとうまくいくはずです」。

翻訳：三枝小夜子、要約：編集部

Nature ダイジェスト Vol. 14 No. 12

DOI: 10.1038/ndigest.2017.171204

原文

Self-taught AI is best yet at strategy game Go

Nature (2017-10-18) | DOI: 10.1038/nature.2017.22858
Elizabeth Gibney

参考文献

Silver, D. et al. Nature 550, 354–359 (2017).
Singh, S., Okun, A. & Jackson, A. Nature 550, 336–337 (2017).