最適方策を学習可能なインタラクティブ模倣学習

中口 悠輝

09:20 〜 09:40

[3D1-GS-2-02] 最適方策を学習可能なインタラクティブ模倣学習

〇中口悠輝¹、窪田大¹ (1. NEC)

キーワード：強化学習、模倣学習、インタラクティブ模倣学習

模倣学習は強化学習の問題を何らかの教師の情報を参考に解く。典型手法の行動模倣では共変量シフトを生じて長期的な問題に適用できなかったが、インタラクティブ模倣学習は教師モデルからオンラインでフィードバックを得ることでこの課題を解決した。一方、インタラクティブ模倣学習の既存手法では、教師が生徒モデルの最適方策と異なる場合に生徒が最適方策を学習できなかった。本研究ではインタラクティブ模倣学習について整理したレビューを与えるとともに、その課題を解決する新規手法を提案する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3D1-GS-2] 機械学習：模倣学習・逆強化学習

[3D1-GS-2-02] 最適方策を学習可能なインタラクティブ模倣学習

パスワード