09:20 〜 09:40
[2O1-GS-8-02] 動的環境下での頑健な制御を実現する強化学習法
キーワード:強化学習、頑健性、Sim-to-Real、ドメインランダマイゼーション
近年,深層学習の導入による強化学習の性能向上に伴い,ロボットや自動車の制御など連続制御問題を対象とした研究がなされている.それらの研究では,学習する際の時間やコスト,安全上の制約を理由に,実世界のシステムを用いず,シミュレータを用いて学習している.しかし,シミュレータが実世界を完全に再現できないために生じるギャップにより,シミュレータで学習したモデルを実世界で動作させることは困難とされている.このようなシミュレータと実世界とのギャップに対処するための研究は二つに分けられる.一つは,シミュレータと実世界を近づけることでギャップを小さくする研究である.もう一つはシミュレータで学習する際に,あらかじめギャップに対して頑健な方策を学習する研究である.本研究では,パラメータの異なる複数の環境下での強化学習のタスク遂行を目的として,二つ目のアプローチの手法であるドメインランダム化を用いた際の頑健性を検証した.また,既に実世界で運用されている手法としてモデル予測制御を取り上げ,ドメインランダム化により獲得した方策と環境の変化に対する性能を比較した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。