エントロピ正則された強化学習を用いた模倣学習

内部 英治

16:00 〜 16:20

[1I3-J-2-03] エントロピ正則された強化学習を用いた模倣学習

〇内部英治¹ (1. 国際電気通信基礎技術研究所)

キーワード：模倣学習、強化学習、逆強化学習、エントロピ正則化

本稿では，強化学習と逆強化学習を組み合わせたエントロピ正則化された模倣学習ERILを提案する．ERILは報酬関数が学習方策のエントロピと学習方策とベースライン方策の間のKullback-Leiblerダイバージェンスで正則化された場合に導出されるソフトベルマン最適方程式を利用する．逆強化学習は二つの方策の密度比を推定する問題に帰着され，ロジスティック回帰を用いた二値分類によって効率的に報酬と状態価値を推定できる．強化学習は方策オフ型の動的方策勾配法などの拡張に相当し，学習方策と推定されたエキスパート方策の間のKLダイバージェンスの最小化問題になる．MuJoCoを用いたシミュレーション環境を用いた実験結果より，提案手法ERILは従来法よりもデータ効率が良いことを示す．

講演情報

[1I3-J-2] 機械学習: 強化学習の発展

[1I3-J-2-03] エントロピ正則された強化学習を用いた模倣学習