拡張されうる行動空間での特徴の表現学習を伴う価値関数の近似

甲野 佑

17:40 〜 18:00

[1Z3-02] 拡張されうる行動空間での特徴の表現学習を伴う価値関数の近似

“逆転オセロニア” を例に

〇甲野佑¹、田中一樹¹、奥村純¹ (1. 株式会社ディー・エヌ・エー)

キーワード：表現学習、強化学習、ゲーム AI

高次な意思決定課題では発見により行動選択肢が無際限に拡張されうる．その場合，行動の特徴表現の自律的な獲得が重要になる．そこで本研究では状態遷移軌跡から行動表現を有限長のベクトルに埋め込み，強化学習に活用する学習フレームを提案する．具体的にはカードとボードゲームの要素を併せ持つ“逆転オセロニア”を例に，拡張されうる行動要素であるキャラクターの表現を暗黙的に獲得し，戦術の学習時に転用できる事を示す

講演情報

[1Z3] 機械学習-機械学習基礎(3)

[1Z3-02] 拡張されうる行動空間での特徴の表現学習を伴う価値関数の近似

“逆転オセロニア” を例に