2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[2B5-GS-2] 機械学習:強化学習

2024年5月29日(水) 15:30 〜 17:10 B会場 (中ホール)

座長:谷口 忠大(京都大学)

16:30 〜 16:50

[2B5-GS-2-04] 行動軌跡を用いた報酬関数の逐次改善による強化学習の性能向上

〇蓑島 康太1、荒井 幸代1 (1. 千葉大学)

キーワード:強化学習、逆強化学習、報酬形成

強化学習により適切な制御則を獲得するには,適切な報酬関数の設計が必要である。しかし,この報酬設計は大規模な問題では複雑になり,設計負担が大きくなり,意図しない挙動を誘発する。そこで,強化学習の実世界応用において,意図しない挙動が確認されたとき,これをもとに報酬設計を改善する手法が求められる。意図しない挙動が生じた原因を特定するには,現在の報酬関数によりエージェントがどのような報酬を獲得しているかを知る必要がある。これに対するアプローチとして,エキスパートの軌跡を所与とし,エキスパートの報酬を推定する逆強化学習が挙げられる。逆強化学習を強化学習エージェントの軌跡に適用することで,現在の報酬関数によりエージェントがどのような報酬を獲得しているかを知ることができる。本研究では,逆強化学習により強化学習エージェントの報酬を推定し,推定した報酬をもとに報酬設計を改善することで,強化学習の性能を向上させる手法を提案する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード