Article

計算科学:ディープニューラルネットワークと木探索を用いた囲碁の習得

Nature 529, 7587 doi: 10.1038/nature16961

囲碁は、探索空間が巨大で、盤上の石の配置や動きの評価が難しいため、長い間人工知能にとって最も困難な古典的ゲームであると考えられてきた。今回我々は、盤上の石の配置を評価する「バリューネットワーク」と動きを選択する「ポリシーネットワーク」を用いる、コンピューター囲碁の新しい手法を提示する。こうしたディープニューラルネットワークは、熟達した棋士同士の対局からの教師あり学習と自己対局での強化学習を新たに組み合わせることによって訓練される。このニューラルネットワークは、先読み探索を全くせずに、数千のランダムな自己対局をシミュレートする最先端のモンテカルロ木探索プログラムと同じ水準で囲碁を打つ。さらに我々は、モンテカルロシミュレーションをバリューネットワークおよびポリシーネットワークと組み合わせた新しい探索アルゴリズムも提示する。この探索アルゴリズムを用いて、我々のプログラムAlphaGoは他の囲碁プログラムに対して99.8%の勝率を達成し、人間のヨーロッパ囲碁チャンピオンと5回対戦して全勝した。コンピュータープログラムが人間のプロ棋士にフル規格の囲碁の対局で勝利したのは今回が初めてであり、少なくとも10年は先だろうとこれまで考えられていた偉業である。

Full text| PDF

目次へ戻る

プライバシーマーク制度