Neural Fictitious Self-Play における探索由来のデータを含めない教師あり学習による性能改善

河村 圭悟

17:20 〜 17:40

[1N3-01] Neural Fictitious Self-Play における探索由来のデータを含めない教師あり学習による性能改善

〇河村圭悟¹、鈴木潤^2,3、鶴岡慶雅⁴ (1. 東京大学大学院工学系研究科、2. NTTコミュニケーション科学基礎研究所、3. 理化学研究所革新知能統合研究センター、4. 東京大学大学院情報理工学系研究科)

キーワード：不完全情報ゲーム、強化学習、自己対戦、ナッシュ均衡

NFSPは強化学習を用いて不完全情報ゲームを解く手法であり，他の手法と比較して環境のダイナミクスや事前知識を用いることなくナッシュ均衡解を得られるというメリットがある．
本研究ではNFSPにおいて強化学習の探索で得られたデータを教師あり学習の学習に含めず，かつ探索の確率を一定に保つことで，単純化したポーカーゲームであるLeduc Hold'emにおいてNFSPの性能が有意に向上することを実験的に示す．また．種々の探索確率について同様の実験を行い，結果について議論する．

講演情報

[1N3] 機械学習-強化学習

[1N3-01] Neural Fictitious Self-Play における探索由来のデータを含めない教師あり学習による性能改善