【人工知能】全くのゼロから独学で囲碁を習得する「アルファ碁ゼロ」
Nature
2017年10月19日
Artificial intelligence: AlphaGo, teach thyself
コンピュータープログラム「アルファ碁」の新バージョンである「アルファ碁ゼロ」は、人間による入力をせず、全くの独学で、古典的な戦略ゲームである囲碁を白紙の状態から急速に習得できることが分かった。その上アルファ碁ゼロは、旧バージョンのアルファ碁(2016年3月に囲碁チャンピオンのイ・セドルを破った)との対局で100戦100勝の成績を挙げた。この新しいコンピュータープログラムについて報告する論文が、今週掲載される。
人工知能の大きな課題の1つは、白紙の状態から難度の高い概念を学習し、超人的な習熟を達成するアルゴリズムを開発することだ。旧バージョンのアルファ碁は、人間の囲碁チャンピオンを負かすため、囲碁の専門家による数百万の指し手を用いた教師付き学習と自己対局(この場合はアルファ碁同士の対局)による強化学習を併用して「訓練」された。アルファ碁の「訓練」は数か月間行われ、複数のコンピューターとニューラルネットワークの「訓練」に特化したチップであるテンソル処理ユニット(TPU)を48個必要とした。
このDavid Silver、Julian Schrittwieser、Karen Simonyan、Demis Hassabisたちの研究グループの論文で紹介されているアルファ碁ゼロは、自己対局のみによって学習するため、最初はランダムな指し手で試合を進め、盤面上の位置と囲碁の石だけを入力データとし、人間によるデータ入力は一切なかった。アルファ碁ゼロは、単一のニューラルネットワークを用いているが、このネットワークは、このプログラム自体が選ぶ指し手と対局の勝者を予測するように「訓練」され、自己対局が繰り返されるたびに性能が向上した。アルファ碁ゼロは、1台のコンピューターと4個のTPUを使用している。
「訓練」が数日間続けられ、約500万回の自己対局をへた時、アルファ碁は、棋士を凌駕し、全ての旧バージョンのアルファ碁との対局に勝利した。そして、「訓練」を受けたアルファ碁ゼロは、人間が数千年をかけて概念化した囲碁の原理のいくつかを独自に発見し、歴史の長い囲碁に新たな知見をもたらす新たな戦略を策定するようになった。
doi: 10.1038/nature24270
注目の論文
-
10月10日
気候変動:気候オーバーシュートのリスク評価Nature
-
10月10日
量子コンピューティング:量子回路の複雑性を探るNature
-
10月3日
物理学:雷雨におけるガンマ線に関する驚くべき発見Nature
-
10月2日
天文学:JWSTが冥王星最大の衛星の表面を調査Nature Communications
-
9月24日
物理学:X線パルスが実験室で模擬小惑星を偏向させることができるNature Physics
-
9月19日
天文学:これまでに観測された最も長いブラックホールジェットを検出Nature