不完全情報ゲームにおける目的に特化した状態空間の縮約

高橋 春輝

15:50 〜 16:10

[2B5-GS-2-02] 不完全情報ゲームにおける目的に特化した状態空間の縮約

〇高橋春輝¹、深井朋樹²、酒井裕³、竹川高志¹ (1. 工学院大学、2. 沖縄科学技術大学院大学、3. 玉川大学)

キーワード：強化学習、ベイズ推定、状態縮約

不完全情報ゲームでは,対戦相手の行動戦略を予測することが困難であるため,相手の戦略に依存せずに勝ちやすい戦略であるナッシュ均衡を求める研究が盛んに行われている.10¹⁶に及ぶ膨大な観測空間をもつ Poker では,Deep Neural Network(DNN)を用いてナッシュ均衡戦略を求め,人間を凌駕する性能が達成されている.DNNは課題に特化した状態空間をブラックボックス内で獲得することで状況に適した行動選択を可能とする一方,選択した行動の妥当性を複雑な状態空間の観点から説明するのは困難である．AIの行動原理を説明する方法として，状態空間を簡潔化し，選択した行動の将来の勝率への貢献度を提示するものが考えられる．そこで，本研究では,膨大な観測空間を簡潔な状態空間に縮約するベイズモデルを提案し,不完全情報ゲームである「ハゲタカの餌食」を題材に性能評価を行う.結果として，提案手法により10⁴程の観測空間を最適に近い状態空間にまで縮約することができた．また，適切な状態空間の縮約は，対戦相手の戦略の予測を容易にし，最適戦略の学習速度が向上することも示された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2B5-GS-2] 機械学習：強化学習

[2B5-GS-2-02] 不完全情報ゲームにおける目的に特化した状態空間の縮約

パスワード