JSAI2018

Presentation information

Oral presentation

General Session » [General Session] 2. Machine Learning

[1N3] [General Session] 2. Machine Learning

Tue. Jun 5, 2018 5:20 PM - 7:00 PM Room N (2F Sakurajima)

座長:松井 藤五郎(中部大学)

5:40 PM - 6:00 PM

[1N3-02] Estimation of a non-linear reward function using score-based inverse reinforcement learning

〇Natsumi Watanabe1, Gakuto Masuyama2, Kazunori Umeda1 (1. Chuo University, 2. Meijo University)

Keywords:inverse reinforcement learning, reinforcement learning

任意の軌道とそのスコアから非線形な報酬関数を推定する逆強化学習を提案する.一般的な逆強化学習では,エキスパートによる演示から特徴量に関して線形な報酬関数を推定する.これに対し提案手法では,カーネル関数を用いて非線形化した報酬関数を,エキスパートによりスコア付けされた任意の軌道から推定する.これにより,エキスパートの演示が不要かつ,複雑な報酬関数の推定が可能となる.マニピュレータの制御問題のシミュレーションにより,推定した報酬関数から学習された方策が,エキスパートによって高いスコアで評価される軌道を生成可能であることを確認した.