慎重に学習するオフポリシー・アクター・クリティック法の提案

北村 俊徳

14:20 〜 14:40

[4G3-GS-2l-03] 慎重に学習するオフポリシー・アクター・クリティック法の提案

〇北村俊徳¹、Zhu Lingwei¹、松原祟充¹ (1. 奈良先端科学技術大学院大学)

キーワード：強化学習

近年のオフポリシーなアクター・クリティック法は様々な連続値制御タスクで優れたサンプル効率を示してきた一方, 方策の単調改善性が保証できず, 学習が不安定になる問題がある. 本研究では, オフポリシーな手法のサンプル効率を保持しながら, より安定した学習を実現した手法, Cautious Actor-Critic (CAC)を提案する. CACは現在の方策と事前に設計した参照方策の線形混合によって保守的に更新されるアクターと, 混合する方策同士を近づけるよう保守化されたクリティックにより, 従来の手法と比較してより慎重(cautious)に方策を更新する. 評価実験では高次元入力な連続値制御のベンチマークタスクを用いて有効性を評価した. 実験結果より, CACがオフポリシーな手法であるSoft Actor-Critic (SAC)と比較して同等のサンプル効率を保持しながら, より安定した学習が可能であることが確認された.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4G3-GS-2l] 機械学習：学習方略(1/2)

[4G3-GS-2l-03] 慎重に学習するオフポリシー・アクター・クリティック法の提案

パスワード