最大エントロピー逆強化学習の性能の理論評価

中口 悠輝

13:20 〜 13:40

[1G2-GS-2a-01] 最大エントロピー逆強化学習の性能の理論評価

〇中口悠輝¹ (1. NECデータサイエンス研究所)

キーワード：逆強化学習、強化学習、最大エントロピー

近年、強化学習の研究が著しく進展し、複雑な意思決定や制御の問題において幅広く高い性能を示すようになった。しかし、適切な報酬関数を指定するのが困難でしばしば意図しない振る舞いが生じてしまい、人手による緻密な報酬関数設計が要求されるのが問題となっている。逆強化学習は熟練者のデモンストレーションから報酬関数を推定することでこの問題を解決するが、逆強化学習の主流の最大エントロピー逆強化学習において推測された報酬関数の性能を理論的に保証する方法が無く、学習結果をどれだけ信頼できるか分からないのが問題である。そこで本研究では、最大エントロピー逆強化学習の性能について理論的な保証を与えるため、その性能について理論的に評価し議論する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1G2-GS-2a] 機械学習：強化学習

[1G2-GS-2a-01] 最大エントロピー逆強化学習の性能の理論評価

パスワード