複数のダイナミクス下でのデモンストレーションによる転移可能な逆強化学習

中口 悠輝

17:50 〜 18:10

[2J6-GS-2-01] 複数のダイナミクス下でのデモンストレーションによる転移可能な逆強化学習

〇中口悠輝¹ (1. NEC)

キーワード：逆強化学習、強化学習、最大エントロピー

近年、強化学習の研究が著しく進展し、複雑な意思決定や制御の問題において幅広く高い性能を示すようになった。しかし、適切な報酬関数を指定するのが困難でしばしば意図しない振る舞いが生じてしまい、人手による緻密な報酬関数設計が要求されるのが問題となっている。逆強化学習は熟練者のデモンストレーションから報酬関数を推定するが、推定された報酬関数にはダイナミクスに依存する不定性があるため、他のダイナミクスに転移することができない。そこで本研究では、転移可能な報酬関数を構成するため、複数のダイナミクスの下で生成されたデモンストレーションを用いてこのダイナミクス依存の不定性を固定する定式化を提案する。また、最大エントロピー逆強化学習に基づく通常の逆強化学習アルゴリズムにおいては最大エントロピー強化学習が順方向最適化のサブルーチンとなっているため、報酬関数の不定性についての既存の議論を通常の強化学習から最大エントロピー強化学習に一般化できることも示す。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2J6-GS-2] 機械学習: 強化学習と発展 (2)

[2J6-GS-2-01] 複数のダイナミクス下でのデモンストレーションによる転移可能な逆強化学習

パスワード