09:20 〜 09:40
[2G1-ES-4-02] Bootstrapping Baysian Inverse Reinforcement Learning in Robotics through VR Demonstration
キーワード:Bayesian inverse reinforcement learning、robot arm、HTC-Vive demonstrations
スパースな報酬は、強化学習(RL)における永続的な問題でした。多くの場合、報酬関数を手動で指定または形成する必要があります。これにより、通常、長いタスク期間と高いアクション次元を備えている現実世界のタスクにRLの適用が大幅に制限され、報酬関数の手動設定が非常に困難になります。この作業では、準最適なデモンストレーションから報酬をシミュレートして推論するベイズ逆強化学習を使用することにより、スパース報酬問題を克服することを提案します。 7-DOFCrane-X7ロボットアームを適応制御するために、ROS環境で表示されるのと同じ周波数で、HTV-Viveインターフェイステクニックとともに、深い決定論的ポリシーグラジエントと後知恵体験リプレイアルゴリズムを使用します。提案手法は、さまざまなフェッチタスクを解決でき、デモンストレーターポリシーよりも優れたポリシーを学習できることを示します。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。