2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[3D1-GS-2] 機械学習:模倣学習・逆強化学習

2023年6月8日(木) 09:00 〜 10:20 D会場 (大会議室 A1)

座長:黄 勇太(Beatrust)[現地]

09:00 〜 09:20

[3D1-GS-2-01] ガンマダイバージェンスに基づく準最適な軌跡のための逆強化学習

〇岸川 大航1、荒井 幸代1 (1. 千葉大学)

キーワード:逆強化学習、準最適、ガンマダイバージェンス

逆強化学習(IRL)は,熟練者の行動を記録した軌跡から,その背後に存在する報酬を推定する手法であり,報酬設計の難しいタスクにおける強化学習による熟練者の模倣や,人間や生物の意図を分析するために用いられる.従来のIRL手法は,熟練者の軌跡が完全に最適であることを仮定しているため,最適ではない動作を含む準最適な軌跡の場合,準最適な報酬が推定されてしまう.準最適な軌跡に対するIRL手法はいくつか存在するが,各軌跡に対して最適性を評価したランキングを利用するアプローチが主流である.しかし,これらの手法は,ランキングデータの正確性に学習性能が大きく影響される問題を抱えている.そこで,準最適な軌跡の分布を,最適な軌跡の分布に外れ値が混入したものであるとみなし,外れ値を無視する性質を有するガンマダイバージェンスを用いたIRL手法を提案する.提案手法は熟練者の軌跡と比較対象のデータを分類するIRL手法に適用することが可能であり,従来用いられてきたクロスエントロピーに基づく手法の一般化とみなすことができる.提案手法を計算機実験によって評価する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード