モデル化誤差に頑健な Max-Min Off-Policy Actor-Critic

田邊 拓実

16:00 〜 16:20

[2C5-GS-2-03] モデル化誤差に頑健な Max-Min Off-Policy Actor-Critic

〇田邊拓実^1,2、佐藤怜^1,2、福地一斗^1,2、佐久間淳^1,2、秋本洋平^1,2 (1. 筑波大学、2. 理研AIP)

キーワード：強化学習、シミュレーションから現実世界、maxmin最適化

現実世界で強化学習を用いて方策を学習することは高コストかつ高リスクであるため，シミュレーション環境で学習した方策を現実環境に転移させる試みがしばしば行われている．しかし，シミュレーション環境は現実環境を完全に模倣できるわけではなく，現実環境とのの間にはモデル化誤差が生じる．本研究では，不確実性パラメータによってモデル化誤差が生じるシミュレーション環境と，不確実性パラメータが存在する空間が既知である，という設定に着目する．現実環境が不確実性パラメータ空間に含まれている場合に現実環境での性能の下限を保証するために，不確実性パラメータ空間に対する最悪ケース性能の最適化を目指す．最悪ケース性能に対して最適化された方策を得るために，強化学習の枠組みの中で同時勾配降下法を用いてMaxMin最適化を行うMax-Min Twin Delayed Deep Deterministic Policy Gradient Algorithm (M2TD3) を提案する． MuJoCoを用いた実験により．一部のタスクでM2TD3はいくつかのベースライン手法よりも優れた最悪ケース性能を示す方策の獲得に成功した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2C5-GS-2] 機械学習：強化学習（２）

[2C5-GS-2-03] モデル化誤差に頑健な Max-Min Off-Policy Actor-Critic

パスワード