2018年度人工知能学会全国大会(第32回)

講演情報

口頭発表

一般セッション » [一般セッション] 2.機械学習

[1N3] 機械学習-強化学習

2018年6月5日(火) 17:20 〜 19:00 N会場 (2F 桜島)

座長:松井 藤五郎(中部大学)

17:40 〜 18:00

[1N3-02] 軌道のスコアに基づく逆強化学習を用いた非線形な報酬関数の推定

〇渡邉 夏美1、増山 岳人2、梅田 和昇1 (1. 中央大学、2. 名城大学)

キーワード:逆強化学習、強化学習

任意の軌道とそのスコアから非線形な報酬関数を推定する逆強化学習を提案する.一般的な逆強化学習では,エキスパートによる演示から特徴量に関して線形な報酬関数を推定する.これに対し提案手法では,カーネル関数を用いて非線形化した報酬関数を,エキスパートによりスコア付けされた任意の軌道から推定する.これにより,エキスパートの演示が不要かつ,複雑な報酬関数の推定が可能となる.マニピュレータの制御問題のシミュレーションにより,推定した報酬関数から学習された方策が,エキスパートによって高いスコアで評価される軌道を生成可能であることを確認した.