[3Yin2-30] 歩行ロボット学習における敵対的な関節攻撃
キーワード:強化学習、ロボット制御、敵対的攻撃
強化学習による歩行ロボット学習において,報酬を減少させる環境変化を見つけることは,潜在的な転倒リスクの発見だけでなく,堅牢な歩行ロボットの開発につながる.とくに,環境のなかでも歩行ロボットの関節は可動部位のため故障が発生しやすく,環境変化が起きやすい.本研究では,関節トルクに対する敵対的攻撃によって,微小な変化であっても報酬を大きく下げる関節トルク制限を発見する方法を提案する.一般に敵対的攻撃は深層学習の損失を減少させる入力摂動を求めるのに対して,提案手法は強化学習の報酬を減少させる環境摂動を求めている.そのため,誤差逆伝播法のような効率的な最適化アルゴリズムが利用できず,差分進化法を用いて敵対的摂動を求めている.実験では, OpenAI GymのAnt-v2とHumanoid-v2を深層強化学習で訓練したあとに,最も歩行を妨げるトルク制限を探索した.提案手法によって,Ant-v2の歩容に応じて報酬を大きく減少させるトルク制限を見つけることができた.一方,Humanoid-v2は関節への摂動に対して堅牢だと判明した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。