接触が伴う環境における微分可能シミュレータ上の効率的で低バイアスな方策勾配推定

小野田 空羽

18:40 〜 19:00

[1S5-GS-2-04] 接触が伴う環境における微分可能シミュレータ上の効率的で低バイアスな方策勾配推定

〇小野田空羽¹、パラマスパーヴォ¹、松尾豊¹ (1. 東京大学)

キーワード：強化学習、微分可能シミュレータ、勾配推定、方策最適化

強化学習における方策勾配法において，微分可能シミュレータ上では勾配の1次推定量を活用することで，導関数を用いない0次推定量のみを使用する場合と比べ，学習を高速化できる．しかしながら，目的関数の非連続的な挙動は1次推定量にバイアスを生じさせ，その効果を損なう．既存手法では0次推定量に信頼区間を構築し，その範囲を用いて非連続性を検出しているが，0次推定量は非常にノイズが大きく，サンプル効率が低いうえにタスク固有のハイパーパラメータ調整が必要となる．そこで本研究では，新たに Discontinuity Detection Composite Gradient (DDCG) を提案する．本手法は，滑らかさの仮定に基づく統計的検定によって非連続性を検出し，それに応じて勾配推定手法を動的に切り替える．我々は本手法を微分可能なシミュレーション制御タスクで評価し，固定のハイパーパラメータで良好な性能を示し，特に少数のサンプルにおいても有効な勾配推定が可能であることを示した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1S5-GS-2] 機械学習：

[1S5-GS-2-04] 接触が伴う環境における微分可能シミュレータ上の効率的で低バイアスな方策勾配推定

パスワード