[3Rin4-02] 物理パラメータのランダム化による耐故障ロボットのための強化学習
キーワード:強化学習、耐故障、物理パラメータ、ロボティクス
強化学習では,コスト面や安全性の理由から,シミュレーション環境で方策を学習し,現実世界に適用することが一般的である.しかし,現実世界の外乱や故障によってシミュレーション環境とテスト環境のギャップが生まれるため,学習された方策のみでは適応できないことが多い.そのようなギャップを埋めるために,様々なシナリオに適応できる方策が必要である.本稿では,故障に対してロバストな方策獲得のための強化学習手法を提案する.提案手法では,故障をロボットの物理パラメータの調整によって表現する.学習時に物理パラメータをランダム化することで様々な故障の下での強化学習を実現している.評価実験では,故障が発生するシミュレーション環境下での4足歩行タスクに対して,提案手法によるロボットが通常のロボットよりも高い平均報酬を獲得したことを示す.さらに故障がない環境下でも評価したところ,同様に提案手法によるロボットはより高い平均報酬を獲得することができた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。