軌道のスコアに基づく逆強化学習を用いた非線形な報酬関数の推定

渡邉 夏美

17:40 〜 18:00

[1N3-02] 軌道のスコアに基づく逆強化学習を用いた非線形な報酬関数の推定

〇渡邉夏美¹、増山岳人²、梅田和昇¹ (1. 中央大学、2. 名城大学)

キーワード：逆強化学習、強化学習

任意の軌道とそのスコアから非線形な報酬関数を推定する逆強化学習を提案する．一般的な逆強化学習では，エキスパートによる演示から特徴量に関して線形な報酬関数を推定する．これに対し提案手法では，カーネル関数を用いて非線形化した報酬関数を，エキスパートによりスコア付けされた任意の軌道から推定する．これにより，エキスパートの演示が不要かつ，複雑な報酬関数の推定が可能となる．マニピュレータの制御問題のシミュレーションにより，推定した報酬関数から学習された方策が，エキスパートによって高いスコアで評価される軌道を生成可能であることを確認した．

講演情報

[1N3] 機械学習-強化学習

[1N3-02] 軌道のスコアに基づく逆強化学習を用いた非線形な報酬関数の推定