14:20 〜 14:40
[2M4-OS-19b-04] 状態行動予測と状態推定のKL情報量最小化による世界モデルに基づいた模倣学習
キーワード:模倣学習、世界モデル
本論文では,学習した方策の状態遷移予測結果とエキスパートデータの状態推定結果との間のKL情報量を最小化することに基づいた模倣学習手法を提案する.状態推定には,世界モデルの一種であるRecurrent State Space Model (RSSM)を用いる.RSSMは,State of the Artな深層強化学習手法であるPlaNetやDreamerにおいて使用されている.MuJoCoシミュレーション環境上での比較を行った.実験結果から,提案手法は他の比較手法よりも高い累積報酬を獲得できることが分かった.本手法による学習は,行動を直接模倣するのではなく,状態遷移に基づく模倣学習が可能である.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。