16:00 〜 16:20
[1B4-GS-2-04] 教師のオフラインデータに基づくインタラクティブ模倣学習
キーワード:強化学習、模倣学習、インタラクティブ模倣学習
模倣学習は強化学習の問題を何らかの教師の情報を参考に解く。典型手法の行動クローニングでは共変量シフトが時間と共に蓄積していくため長期的な問題に適用できなかったが、インタラクティブ模倣学習は教師モデルからオンラインでフィードバックを得ることでこの課題を解決した。さらに生徒の報酬情報も活用できるなら、教師と生徒で問題が完全に同じではないなど教師が非最適の場合であっても、強化学習よりも速く学習しつつ教師を超えることも可能である。しかし、インタラクティブ模倣学習のためにはオンラインに応答できる教師が必要で、適用できる教師は限られる。とくに、効率的な学習のためには教師の価値関数が必要であり、適用できる教師が強化学習済みモデルに限られてしまう。そこで本研究では、逆強化学習の派生手法である逆ソフトQ学習を流用して教師の軌跡から価値関数を構成することにより、価値関数を必要とするような効率的なインタラクティブ模倣学習をオフラインの軌跡データしかない教師に対しても適用できるよう拡張する手法を提案する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。