16:30 〜 16:50
[2B5-GS-2-04] 行動軌跡を用いた報酬関数の逐次改善による強化学習の性能向上
キーワード:強化学習、逆強化学習、報酬形成
強化学習により適切な制御則を獲得するには,適切な報酬関数の設計が必要である。しかし,この報酬設計は大規模な問題では複雑になり,設計負担が大きくなり,意図しない挙動を誘発する。そこで,強化学習の実世界応用において,意図しない挙動が確認されたとき,これをもとに報酬設計を改善する手法が求められる。意図しない挙動が生じた原因を特定するには,現在の報酬関数によりエージェントがどのような報酬を獲得しているかを知る必要がある。これに対するアプローチとして,エキスパートの軌跡を所与とし,エキスパートの報酬を推定する逆強化学習が挙げられる。逆強化学習を強化学習エージェントの軌跡に適用することで,現在の報酬関数によりエージェントがどのような報酬を獲得しているかを知ることができる。本研究では,逆強化学習により強化学習エージェントの報酬を推定し,推定した報酬をもとに報酬設計を改善することで,強化学習の性能を向上させる手法を提案する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。