Research press release


Nature Communications

Artificial intelligence: Designing agents that can communicate and cooperate in Diplomacy

交渉して合意を形成する能力を持つ人工知能(AI)エージェントが、Diplomacyというボードゲームのプレイヤーになった場合に、この能力を持たない他のエージェントを打ち負かしたことを報告する論文が、Nature Communicationsに掲載される。今回の研究で得られた知見は、ゲームをプレイする際に他の人工エージェントと意思疎通して、協力し合い、共同計画を策定できるエージェントをモデル化するための深層強化学習法を実証した。


今回、János Kramár、Yoram Bachrachたちは、エージェントが同盟関係や共同計画を交渉できるようにする深層強化学習法を設計した。今回の論文著者は、ゲームの各プレイヤーをモデル化し、他のチームの戦略に対抗しようと試みるチームを形成するエージェントを作成した。この学習アルゴリズムにより、エージェントは、将来の動きに関する合意を形成することができるようになり、将来のゲーム状態に関する可能性を予測することで有益な取引を特定できるようになった。そして、論文著者は、人間レベルのパフォーマンスの実現に向けて、エージェントが一旦結んだ合意から逸脱してエージェント間の約束を破った複数の事例を検討して、誠実な協力が実現するための条件を調べた。


Artificial intelligence (AI) agents that can negotiate and form agreements, allowing them to outperform other agents without this ability in the board game Diplomacy, are reported in a Nature Communications paper. The findings demonstrate a deep reinforcement learning approach for modelling agents that can communicate and cooperate with other artificial agents to make joint plans when playing the game.

Developing AI that can demonstrate cooperation and communication between agents is important. Diplomacy is a popular board game that offers a useful test bed for such behaviour, as it involves complex communication, negotiation and alliance formation between the players, which have been long-lasting challenges for AI to achieve. To play successfully, Diplomacy requires reasoning about concurrent player future plans, commitments between players and their honest cooperation. Previous AI agents have achieved success in single-player or competitive two-player games without communication between players.

János Kramár, Yoram Bachrach and colleagues designed a deep reinforcement learning approach that enables agents to negotiate alliances and joint plans. The authors created agents that model game players and form teams that try to counter the strategies of other teams. The learning algorithm allows agents to agree future moves and identify beneficial deals by predicting possible future game states. Moving towards human-level performance, the authors also investigated the conditions for honest cooperation, by examining some broken commitment scenarios between the agents, where agents deviate from past agreements.

The findings help form the basis of flexible communication mechanisms in AI agents that enable them to adapt their strategies to their environment. Additionally, the findings show how the inclination to sanction peers who break contracts dramatically reduces the advantage of such deviators, and helps foster mostly truthful communication, despite conditions that initially favour deviations from agreements.

doi: 10.1038/s41467-022-34473-5


メールマガジンリストの「Nature 関連誌今週のハイライト」にチェックをいれていただきますと、毎週各ジャーナルからの最新の「注目のハイライト」をまとめて皆様にお届けいたします。