News

6人プレイのポーカーでAIがプロに勝利

Nature ダイジェスト Vol. 16 No. 10 | doi : 10.1038/ndigest.2019.191008

原文:Nature (2019-07-11) | doi: 10.1038/d41586-019-02156-9 | No limit: AI poker bot is first to beat professionals at multiplayer game

Douglas Heaven

ポーカーの中でも特に複雑な、6人プレイのテキサスホールデムで人工知能(AI)が人間に勝利したことで、実世界の難しい問題をAIが解決できるようになる日がまた近づいた。

拡大する

Alexandre Rotenberg/Alamy

人工知能の重要性がここに来て一段と高まった。人間を超えたポーカーAI「Pluribus」が、ポーカーの中で最も一般的な、掛け金に上限のない6人プレイのテキサスホールデムというゲームで、人間のトッププロに勝利したのだ。3人以上のプレーヤーが参加するゲームでAIプログラムが一流プレーヤーを打ち負かしたのはこれが初めてである(N. Brown and T. Sandholm Science http://doi.org/c766; 2019)。

ニューヨーク大学(米国)でゲームとAIの研究をしているJulian Togeliusは、「プレーヤーが2人から6人になっても、数が増えただけで基本は同じだろうと思われるかもしれませんが、この報告は素晴らしい成果です」と言う。「現在研究されている他のゲームは、3人以上でプレイすることはありません(註:マイクロソフト社は8月末に麻雀で、人間のトッププレーヤーに匹敵するAI「Suphx」を開発したことを発表した)」。

Pluribusの開発チームは以前、「Libratus」というAIを開発し、2人プレイのポーカーでプロに勝利した実績を持つ。チームはLibratusをアップデートすることにより、はるかに少ない計算能力でゲームをするPluribusを開発した。Pluribusは、12日間のセッションで1万ゲームをこなし、人間1人とPluribus 5体で行ったゲームと、人間5人とPluribus 1体で行ったゲームで、計15人のトップポーカープレーヤーに勝利した。カーネギー・メロン大学(米国ペンシルベニア州ピッツバーグ)とフェイスブックAIリサーチ(Facebook AI Research;米国ニューヨーク)に所属し、同大学の同僚Tuomas Sandholmと共にPluribusを開発したNoam Brownは、多くのAI研究者は自分たちの手法でトッププロに勝てるとは思っていなかったと言う。

Libratusやディープマインド社(DeepMind;英国ロンドン)の囲碁AIなど、人間のゲームをマスターした他のAI(2016年3月号「人工知能が囲碁をマスター」参照)は、2人プレイのゼロサムゲーム(参加者の得失点の和が常にゼロになるゲーム)での圧倒的な強さを証明した。こうしたシナリオでは常に1人の勝者と1人の敗者がいて、ゲーム理論が、明確に定義された最善の戦略を与えてくれる。その戦略を用いれば、負けることはない。

しかし、利害が対立する多数のプレーヤーが参加し、明確な勝敗条件がないシナリオ(実世界の問題の大半がこのタイプ)では、ゲーム理論はあまり役に立たない。Pluribusは、大勢がプレイするポーカーを解くことで、未来のAIがこの手の複雑な問題に挑むための基礎を打ち立てた、とBrownは言う。彼は、今回の成功により、自動交渉、より優れた不正検知、自動運転車などへの応用にまた一歩近づくことができたと考えている。

6人プレイのポーカーに挑むため、BrownとSandholmは、Libratusの探索アルゴリズムを徹底的に見直した。ゲームをするAIのほとんどは、任意の状況で最善の手を打つために決定木(decision tree)を前向きに探索する。Libratusは、ゲームを終わりまで探索してからアクションを選択していた。

しかし、プレーヤー数が増えることでもたらされる複雑さは、前向き探索という戦術を非実用的なものにする。ポーカーでは、隠された情報を使って推理することが求められる。プレーヤーは、それまでのベットに基づいて、相手がどんなカードを持っていて、自分の持ち札についてどのように推測しているかを考えなければならない。しかし、プレーヤー数が増えると、より多くの可能性を評価する必要があるため、アクションの選択はさらに難しくなる。

カギとなるブレイクスルーは、Pluribusがゲームの終わりまでではなく数手先まで検討するだけで良い選択ができるような方法を開発することだった。

Pluribusは、ディープマインド社の囲碁AI「アルファ碁ゼロ」が用いたような強化学習により、ポーカーをゼロから独習した(2017年12月号「独習で最強になった囲碁AI」参照)。最初はランダムにプレイをして、どのようなアクションをすると稼ぎが大きくなるかを明らかにしながら腕を上げてゆく。ゲームが終わるたびに自分のプレイを振り返り、違ったアクションをしていたら(例えばベットに対してコールせずにレイズするなど)もっと稼ぎが大きくなっていなかったかチェックした。

Pluribusは、自分自身を相手に数兆ものハンドをつくることで、ゲームに用いる基本的な戦略(青写真)を作った。そして個々の決断ポイントで、ゲームの状況を青写真と比較し、その先の数手を探索して、アクションがどんな影響をもたらすかを確認する。それから、そのアクションを改善できるか判断する。

さらに広い世界へ

Pluribusの成功した主な要因は、その効率の良さにある。プレイするときに使うCPUはたった2個である。ちなみに、ディープマインド社の最初の囲碁AIが一流のプロに初めて勝ったときに使っていたCPUは2000個近かったし、Libratusが使ったCPUは100個だった。Pluribusが自分自身と対戦するときの1ゲームの所用時間は約20秒で、人間のプロの約2倍のスピードである。

ゲームはAIの進化を測定する方法として非常に優れている。一流のプレーヤーとスコアを比較することができ、AIが勝利すれば人間を超えたと客観的に認めることができるからだ。しかしBrownは、AIがゲームという狭い世界を飛び出しつつあると感じている。「6人プレイのテキサスホールデムは、ポーカーでの最後の難関でした」と彼は言う。

一方Togeliusは、AI研究者がゲームから得られるものはまだまだあると考えている。「未踏の領域はたくさんあります」。複数のゲームをマスターするためにはニッチのスキルではなく総合的な能力が必要だが、これを実現したAIはほとんどない。ゲームに関する挑戦には単にプレイする以上のことがある。「ゲームをデザインするという挑戦もあるのです。AIにとって偉大な挑戦になるはずです」とTogeliusは言う。

(翻訳:三枝小夜子)

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度