11:20 〜 11:40
[4E1-GS-2-05] 多目的逆強化学習のための報酬行列分解
キーワード:多目的逆強化学習、報酬行列分解
エキスパートの軌跡から報酬を推定する逆強化学習(IRL)は,報酬の設計が困難である複雑な行動の模倣や,人間や生物が有する意図の解明といった用途への応用が期待されている.現在のIRL手法の多くは,エキスパートが単目的の報酬に従うことを仮定している.しかし,実世界の問題の多くは,複数の目的を考慮する多目的最適化問題である.具体的には,各目的に対する報酬と,各目的をどれほど重視するかを示す重みの二つの要素によって,エキスパートは行動を決定していると考えられる.従来手法では,報酬が既知であることを前提とすることや,重みに対する制約が考慮できないことが問題であった.本論文では,多目的最適化問題における線形スカラー化の定式化に着目し,重みに対する制約を満たしながら,各目的に対する重み,および各目的に対する報酬を同時に推定する多目的IRL手法を提案する.重みと報酬の同時推定によって,エキスパートの意図のより詳細な分析や,推定した目的ごとの報酬に基づく新たな行動の生成が可能となる.提案手法を基礎的なベンチマーク問題に適用し,従来手法と比較して,適切な重みと報酬が推定できることを示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。