不完全情報ゲームにおける環境モデルの潜在的学習によるゲーム木探索

迫田 真太郎

17:10 〜 17:30

[2J5-GS-2-05] 不完全情報ゲームにおける環境モデルの潜在的学習によるゲーム木探索

逆転オセロニアの場合

〇迫田真太郎^1,2、大渡勝己²、田中一樹²、甲野佑² (1. 慶應義塾大学、2. 株式会社ディー・エヌ・エー)

キーワード：深層学習、ゲーム木探索、モデルベース強化学習

ボードゲーム AI の分野において、ニューラルネットワークによる盤面評価と木探索を組み合わせる手法が注目を集めている。木探索を行うためには盤面の遷移則が既知である必要があるが、モデルベース強化学習と関連して盤面の遷移則を学習する研究も活発に進められており、中でも MuZero は Atari・囲碁・将棋・チェスといったゲームにおいて高い性能を示している。本研究では MuZero のアルゴリズムを教師あり学習として再定義し、より複雑なゲームである「逆転オセロニア」へ適用する手法について検討する。「逆転オセロニア」は不完全情報性や不確定性を持つゲームであるため、多面的な情報を複数ターンに渡って保持できるような遷移を学習する必要がある。MuZeroアルゴリズムを直接「逆転オセロニア」へ適用した場合、部分的に性能は向上するが、遷移の不確かさにより木探索に悪影響が出る場合もあることが確認された。分析から、遷移の不確かさを考慮した木探索を行うことでさらなる性能向上が見込める可能性が示唆された。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2J5-GS-2] 機械学習: 強化学習と発展 (1)

[2J5-GS-2-05] 不完全情報ゲームにおける環境モデルの潜在的学習によるゲーム木探索

逆転オセロニアの場合

パスワード