[3Win5-13] 関節トルク信号への摂動に頑健なOffline-to-Online強化学習
キーワード:オフライン強化学習、オンラインファインチューニング、頑健性評価、敵対的摂動
オフライン強化学習は、環境との相互作用を必要とせず既存のデータセットから学習可能なため、ロボット制御などへの応用が期待されている。一方で、ロボットの関節アクチュエータの故障といった実世界の問題に対する頑健性が求められる。従来の強化学習では学習中に摂動を付加する手法が提案されてきたが、オフライン強化学習では探索範囲の制約や悲観的手法の影響により、摂動を含むデータセットを用いた場合でも頑健性の獲得は困難である。本研究では、事前学習済みの強化学習モデルがわずかなオンラインファインチューニングにより頑健性を獲得できるoffline-to-online強化学習手法を提案する。ファインチューニング時は、強化学習モデルの出力である関節トルク信号に制御部位の故障を模擬した摂動を付加して再学習する。摂動にはランダム摂動と最悪ケースを想定した敵対的摂動を用い、実験にはOpenAI Gymの脚式歩行ロボットモデルを使用する。実験結果は、offline-to-online強化学習によって強化学習モデルが上記摂動への頑健性を獲得できることを示している。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。