17:20 〜 17:40
[1N3-01] Neural Fictitious Self-Play における探索由来のデータを含めない教師あり学習による性能改善
キーワード:不完全情報ゲーム、強化学習、自己対戦、ナッシュ均衡
NFSPは強化学習を用いて不完全情報ゲームを解く手法であり,他の手法と比較して環境のダイナミクスや事前知識を用いることなくナッシュ均衡解を得られるというメリットがある.
本研究ではNFSPにおいて強化学習の探索で得られたデータを教師あり学習の学習に含めず,かつ探索の確率を一定に保つことで,単純化したポーカーゲームであるLeduc Hold'emにおいてNFSPの性能が有意に向上することを実験的に示す.また.種々の探索確率について同様の実験を行い,結果について議論する.
本研究ではNFSPにおいて強化学習の探索で得られたデータを教師あり学習の学習に含めず,かつ探索の確率を一定に保つことで,単純化したポーカーゲームであるLeduc Hold'emにおいてNFSPの性能が有意に向上することを実験的に示す.また.種々の探索確率について同様の実験を行い,結果について議論する.