2023年度 人工知能学会全国大会(第37回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-27 強化学習の新展開

[2Q4-OS-27b] 強化学習の新展開

2023年6月7日(水) 13:30 〜 15:10 Q会場 (601)

オーガナイザ:太田 宏之、甲野 佑、高橋 達二

14:50 〜 15:10

[2Q4-OS-27b-05] 強化学習を用いた現代型モバイルゲーム『逆転オセロニア』のトップレベル対戦 AI

〇大渡 勝己1、後藤 優太2、甲野 佑1、田中 一樹1 (1. 株式会社ディー・エヌ・エー、2. 東京農工大学)

キーワード:強化学習、ゲームAI

強化学習は主体的にデータ獲得して学習する,ある種の万能性を持った機械学習手法であり,ゲーム分野において複雑なゲーム手順の学習も可能になってきている.本研究で扱う『逆転オセロニア』は 2016 年 2 月から運営が続いているモバイル型の 2 人対戦ゲームであり,長期の運用を経て数多くのキャラクターが追加されたことで非常に多種多様な戦略を有する.我々はこのような複雑な現代型ゲームでも強化学習によってトップレベルの強さを有するプレイヤー AI が作れることを示す.このようなゲームの学習の困難な点は戦略パターンを学習するためのデータ量を膨大に必要とすることだが,本件では分散型強化学習アーキテクチャを使用する他,既存のプレイヤーの対戦データを学習時に混入させることでカリキュラム的に初期の学習の立ち上がりが改善した.また,空間的な状態依存の情報,集合的な順不同な情報を統合する必要があり Transformer などを組み合わせたネットワークにて学習を行なった.その他ドメインに依存する / しない様々な工夫により強さを実現した.また本研究ではゲームの更新に合わせた継続的な AI の追従も議論する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード