16:00 〜 16:20
[2C5-GS-2-03] モデル化誤差に頑健な Max-Min Off-Policy Actor-Critic
キーワード:強化学習、シミュレーションから現実世界、maxmin最適化
現実世界で強化学習を用いて方策を学習することは高コストかつ高リスクであるため,シミュレーション環境で学習した方策を現実環境に転移させる試みがしばしば行われている. しかし,シミュレーション環境は現実環境を完全に模倣できるわけではなく,現実環境とのの間にはモデル化誤差が生じる. 本研究では,不確実性パラメータによってモデル化誤差が生じるシミュレーション環境と,不確実性パラメータが存在する空間が既知である,という設定に着目する. 現実環境が不確実性パラメータ空間に含まれている場合に現実環境での性能の下限を保証するために,不確実性パラメータ空間に対する最悪ケース性能の最適化を目指す. 最悪ケース性能に対して最適化された方策を得るために,強化学習の枠組みの中で同時勾配降下法を用いてMaxMin最適化を行うMax-Min Twin Delayed Deep Deterministic Policy Gradient Algorithm (M2TD3) を提案する. MuJoCoを用いた実験により.一部のタスクでM2TD3はいくつかのベースライン手法よりも優れた最悪ケース性能を示す方策の獲得に成功した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。