オフラインデータを利用したモデルベース強化学習

松嶋 達也

16:30 〜 16:50

[2D5-OS-18b-03] オフラインデータを利用したモデルベース強化学習

〇松嶋達也¹、古田拓毅¹、顧世翔^1,2、松尾豊¹ (1. 東京大学、2. Google AI)

キーワード：強化学習、ダイナミクスモデル、オフライン強化学習、バッチ強化学習

強化学習において，環境とオンラインに相互作用するコストの高い問題では，事前にデータセットを用意しておき方策を学習するオフライン強化学習が有望である．しかし，既存のオフライン強化学習手法は大きなデータセットに依存しているため，小さなデータセットを利用した場合，学習が不安定になるという問題を抱えている．オンラインの強化学習では，学習のサンプル効率を高める方法としてモデルベース強化学習が利用されているが，オフラインの問題設定に単純にダイナミクスモデルを組み込むだけでは性能を発揮できない．本研究では，モデルベース強化学習において，オフラインデータを利用して方策を学習する新たな手法を提案する．本提案手法は，ダイナミクスモデルのアンサンブルと，オフラインデータから推定した挙動方策とターゲット方策のダイバージェンスによる制約という2つの要素を併せ持つ．評価実験では，高次元連続制御のベンチマークを用いて，本提案手法がより小さなデータセットにおいても安定して方策を学習できることを示す．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2D5-OS-18b] 世界モデルと知能 (2)

[2D5-OS-18b-03] オフラインデータを利用したモデルベース強化学習

パスワード