09:00 〜 09:20
[3D1-GS-2-01] ガンマダイバージェンスに基づく準最適な軌跡のための逆強化学習
キーワード:逆強化学習、準最適、ガンマダイバージェンス
逆強化学習(IRL)は,熟練者の行動を記録した軌跡から,その背後に存在する報酬を推定する手法であり,報酬設計の難しいタスクにおける強化学習による熟練者の模倣や,人間や生物の意図を分析するために用いられる.従来のIRL手法は,熟練者の軌跡が完全に最適であることを仮定しているため,最適ではない動作を含む準最適な軌跡の場合,準最適な報酬が推定されてしまう.準最適な軌跡に対するIRL手法はいくつか存在するが,各軌跡に対して最適性を評価したランキングを利用するアプローチが主流である.しかし,これらの手法は,ランキングデータの正確性に学習性能が大きく影響される問題を抱えている.そこで,準最適な軌跡の分布を,最適な軌跡の分布に外れ値が混入したものであるとみなし,外れ値を無視する性質を有するガンマダイバージェンスを用いたIRL手法を提案する.提案手法は熟練者の軌跡と比較対象のデータを分類するIRL手法に適用することが可能であり,従来用いられてきたクロスエントロピーに基づく手法の一般化とみなすことができる.提案手法を計算機実験によって評価する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。