Japanese Author

運転技術とマナーを兼ね備えたAI、『グランツーリスモSPORT』で勝利

PlayStation^®4︎の自動車レースゲーム『グランツーリスモSPORT』。新たに開発された人工知能（AI）が、このゲームの世界チャンピオンに勝利した。レースで勝つには、リアルタイムに車両を制御していく能力に加え、対戦相手に敬意を払って運転するマナーを学ぶ必要もあった。このAIの研究開発メンバーの1人、河本献太氏（株式会社ソニーAI）に話を聞いた。

Credit: Gran Turismo Sport: TM & © 2021 Sony Interactive Entertainment Inc. Developed by Polyphony Digital Inc.

―― 『グランツーリスモSPORT』はどのようなゲームですか。

河本氏：ソニーのPlayStation®4でプレイする自動車レースのシミュレーションゲームです。eスポーツとしても楽しまれていて、国際自動車連盟（FIA）公認の世界選手権大会が毎年開催されます。

このゲームの最大の特徴は、現実の運転体験や環境を限りなくリアルに再現できるように作られていることでしょう。マシンの外観や内装はもちろん、エンジン特性やサスペンションなどの運動性能、道路の状況、空気抵抗や摩擦から周囲の環境、気温や気圧まで、驚くほど緻密にシミュレーションされています。

そのコースは、世界各地の実際のサーキットやシティコースを再現している他、オリジナルコースも含まれています。大会で優勝するようなトップレベルのプレイヤー（ドライバー）になると、毎日2〜3時間は欠かさず練習するそうです。

―― 河本さんは、グランツーリスモSPORTをプレイするAIを開発されたのですね¹。

河本氏：はい。私は研究開発メンバーの1人です。グランツーリスモSPORTをプレイするAIの開発プロジェクトは、私の所属するソニーAIに加えて、グランツーリスモを開発している株式会社ポリフォニー・デジタル（PDI）、そしてソニー・インタラクティブエンタテインメント（SIE）の協力によって進められています。

このAIは名前を、「グランツーリスモ・ソフィー（Gran Turismo Sophy）TM」、略してGT Sophyといいます。「グランツーリスモで人間のチャンピオンに勝とう」というプロジェクトが動き出したのは2016年です。そして、本格的に取り組むようになったのは2020年になってからです。

このたび、GT Sophyが人間のトップレベルのドライバーとレースを行い、ついに勝利することができました。

GT Sophyが達成したブレイクスルーとは？

―― ゲームでAIが人間に勝つことは、それほど珍しいことではないのでは？

河本氏：確かに、囲碁などではAIが人間に勝つことはよく知られていますからね。しかし、囲碁などと自動車レースでは、AIに求められる技術が大きく異なるので、AIが勝つことは簡単ではないのです。

自動車レースで求められるのは、頭で考えたことを実際に実現する技術、すなわち「制御」なのです。

囲碁などで求められるのは、先を読んで考えること、つまり「計画」ですが、自動車レースで求められるのは、頭で考えたことを実際に実現する技術、すなわち「制御」なのです。どういうことかというと、囲碁で重要なのは石を置く場所を決めることであり、石を置き損じることは想定外ですよね。それに、もし石をマス目の中央からずれたところに置いたとしても、そのマスに置いたと見なすことにすれば、その後の試合展開には全く影響しません。ところが、自動車レースでは、相手を抜こうと思ってイメージしたことがそのまま実現できるとは限らないのです。どうしても誤差が出てきてしまいますし、その誤差は放っておくと時間経過とともに必ず拡大してしまうので、ハンドルやアクセル、ブレーキをうまく操作して、その影響を抑え込まなくてはいけないのです。しかも、対戦相手の動きにリアルタイムで対応していくということも必要です。このような制御という技術において卓越した性能を収めることができたのがGT Sophyなのです。

それから、GT Sophyが卓越している点はもう1つあります。GT Sophyはレースドライバーとしてのマナーを学習できたのです。

図1 車両を精密に制御して、壁ギリギリを走らせるGT Sophy。 Credit: Gran Turismo Sport: TM & © 2021 Sony Interactive Entertainment Inc. Developed by Polyphony Digital Inc.

―― AIがマナーを身につけたということですか？

河本氏：そうです。自動車レースでは参加者が守らなければならないマナー、スポーツパーソンシップがあります。対戦相手に敬意を払い、互いに気持ちよく走ること、フェアであることが求められるのです。速く走ることはできても、このマナーを身につけないと、レースで勝利したことになりません。

こうしたマナーは、具体的にどこまでならOKで、どこからがペナルティーとなるか、その判定はケースバイケースです。ですから、グランツーリスモの大会では、人間の審判がいて、その部分を判断することになっています。

一方で、マナーを気にするあまり相手に遠慮してしまうと、レースに全く勝てなくなります。従って、一線を決して越えない範囲で互いに厳しくせめぎ合うことができなくてはいけません。このような定義の難しい行動をGT Sophyが学んだということは、AIの開発における非常に大きなブレイクスルーだと考えています。

―― マナーの学習は重要な課題だったのですね。

河本氏：実は当初は、マナーを学ぶことがそれほど重要と私たち自身も理解していませんでした。速く走って勝てばよいと思っていたのです。しかし、開発を進めていくうちに、スポーツパーソンシップが大事なゲームなのだと気付かされました。

GT Sophyでは、人間のトップレベルのドライバーに一緒にレースをしてもらい、性能の評価を受けました。そのときに、「ここで、無理に割り込みましたね」などのマナー違反のコメントをもらうことを通して、私たちも学んでいったのです。やがて評価者に、「面白いレースだったね」というコメントをもらえるようになり、マナーという課題を乗り越えられそうだという実感が得られ、これはNatureにも論文発表可能かもしれないという思いが皆の中に出てきました。

強化学習でAIを自律的に学ばせる

―― AIの訓練は具体的にどのように行ったのでしょうか。

河本氏：深層強化学習という機械学習の手法の1つを使ってGT Sophyを学習させました。機械学習でよく用いられるのは、AIに正解を全部与えて学習させる方法ですが、自動車レースでは（囲碁などのゲームでも同じですが）、我々人間は誰も、全てのパターンを網羅した正解を与えることはできません。そこで、AIに自律的に学習させるための強化学習という手法を使います。

自律的学習の際に、行動の良しあしのヒントになるように、良い結果が起きたら報酬（プラスの評価点）が与えられ、悪い結果にはペナルティー（マイナスの評価点）が与えられるようにアルゴリズムを設定しておきます。そうして、何度もレースを行い、報酬やペナルティーを調整したり、対戦相手を入れ替えたりして学習させていきました。最終的に、トップレベルのドライバーも舌を巻くようなレーススキルや駆け引きをも使いこなせるようになったのです。

図2 人間のドライバーとレースをして、GT Sophyの評価を行う。 Credit: Gran Turismo Sport: TM & © 2021 Sony Interactive Entertainment Inc. Developed by Polyphony Digital Inc.

―― 良い結果とは、速く走ることや、良いマナーなどですか。

河本氏：そうですね。例えば、レースには勝ったけれどもマナーが少し悪かったというときには、マナーのペナルティーを増やすといった調整を行います。この調整作業は簡単ではありませんでした。AIの行動はAIが学習した総合的な結果として表れるので、一部の調整をしても私たちの期待通りになるとは限らないからです。例えば、ある部分は改良されても、別な部分には支障が出たりすることもありました。

それでも、速く走る技術は、ある程度早い時期に獲得できました。壁ギリギリをどのくらいのスピードで走るかといった技術です。こうした操縦技術は、いかに複雑な現象であっても、本質的には物理法則への対処になります。一方、マナーの学習といった、人間相手の相互作用が関わる問題となると、複雑さのレベルが大きく跳ね上がり、チャレンジングでした。GT Sophyが乱暴な運転をすると、相手のドライバーも対抗して乱暴な運転になるといった難しさもありました。試行錯誤しながら、調整を重ねました。

―― GT Sophyの研究開発チームはどのように作業分担を？

河本氏：論文に名前が掲載されている人数は約20名で、かなり大規模なプロジェクトですね。ソニーAIのメンバーは世界中に散らばっていて、リモートで仕事をしています。役割分担とチーム編成は状況に応じて変えていきますが、大きくAIチームとエンジニアチームに分かれます。私はAIチームの中のリーダーの1人でした。

図3 2台のGT Sophyがそれぞれ別の軌道（赤と青の線）で、前方の車を追い抜く。周囲の状況に応じて、その時々で最適と判断した運転を行えるGT Sophy。 Credit: Gerdes, J. C. *Nature* 602 213–214 (2002).

エンジニアチームは、AIの学習や評価を大規模に、かつ分散して行うための機械学習プラットフォーム技術を開発しました。それらを支える多数のPlayStationインフラストラクチャーはSIEが用意してくれました。

今後の研究開発

―― GT Sophyの研究開発は今後どのように進めるのですか？

河本氏： GT Sophyが目指すところには、まだ先があります。人間にとって、一緒に楽しくレースができるAIとなることです。この実現には、レースで勝利することより、さらに大きな課題を乗り越える必要があるでしょう。なぜなら、楽しさを目指すとなると、目的自体の定義が人によって変わってくるからです。開発の手始めに、まず、「レースをしていて楽しい」とは何かを理解することが重要と考え、私自身もグランツーリスモで遊んだり、いろいろな人の意見を聞いたりしています。

将来的には、グランツーリスモだけでなく、他のいろいろなゲームとのパートナーシップも模索していきたいです。

―― GT Sophyのさらなる成長が楽しみですね。

河本氏： GT Sophyの開発プロジェクトにおいて、ソニーAIが最終的に目指していることは、人を楽しませるAIを作ることです。これはゲームのようなバーチャルに存在するエージェントもあれば、ロボットに搭載されるようなものもあります。ロボットが家にいて、私たちの生活の一部になったらさぞ楽しいだろうなというのは、昔からの私自身の思いでもありました。今回のGT Sophyの開発は、そのようなロボットを作るためのステップとしても意義深いものです。

私はGT Sophyの開発に携わる前にQRIOという家庭向けロボットの開発を行っていました。QRIOにはさまざまなルールや知識を覚え込ませたのですが、それでも、日常の生活場面に置いたら、思いがけない出来事にすぐに出くわしてしまい、想定外のことを許容できないQRIOとは30分以上楽しく遊ぶのは難しいと思いました。GT Sophyでは、今後、事前に設計されたルールに従うだけでなく、人との相互作用を通じてAIが自律的に行動を変えていけるような技術を開発していきたいと思います。

今回、レースマナーのような定義の難しい事柄をAIが学ぶことも不可能ではないことが分かりました。人間とAIが協働して、AIに人間の「常識」を学ばせることも、この先可能になるでしょう。さらに将来的には、人間が手取り足取り調整しなくても、この調整を自動化することを目指したいと考えています。

―― 学生や若手の研究者に向けてアドバイスを。

河本氏：どんなことでも一生懸命取り組めば、その経験は必ず後で役立つはずです。私自身も、ロボットやAIに携わる前やその途中で何度も脇道にそれており、その経験から、今ある課題への新たな発想を得られることがよくあります。

自分は何に興味があるかをよく知ることも大事です。私自身は、人間の知性とか賢さとは何なのか、どこから来るのかということに長く興味がありました。AIやロボットの開発に携わっていても、人間っぽい賢さと機械っぽい賢さの差がとても気になるのです。自分自身の興味があるところからアプローチしていくことがとても大切だと思います。

―― ありがとうございました。

聞き手は藤川良子（サイエンスライター）

Author Profile

河本献太（かわもと・けんた）

株式会社ソニー AI
1998年、東京大学大学院航空宇宙工学専攻修了。同年ソニー（株）に入社。エンタテインメントロボットAIBO、小型ヒューマノイドロボットQRIOなどの家庭向けロボットの研究開発に従事。その後、人のように柔軟な機械知能の実現を目指し、行動学習・自律発達学習の研究開発を行う。IEEE International Conference on Development and Learning and Epigenetic Robotics 2011にてBest Paper Awardを受賞。2016年、（株）ポリフォニー・デジタルとグランツーリスモへの機械学習応用に関する共同研究を開始。2020年より現職。（株）ソニーAIでは、主にゲームAIプロジェクトに携わる。Sony Outstanding Engineer Award 2020受賞。

Nature ダイジェスト Vol. 19 No. 6

DOI: 10.1038/ndigest.2022.220624

参考文献

Wurman, P. R. et al. Nature, 602, 223–228 (2022).