DreamingV2: 再構成不要な離散状態世界モデル学習と強化学習

岡田 雅司

09:00 〜 09:20

[2M1-OS-19a-01] DreamingV2: 再構成不要な離散状態世界モデル学習と強化学習

〇岡田雅司¹、谷口忠大^2,1 (1. パナソニック株式会社、2. 立命館大学)

[[オンライン]]

キーワード：世界モデル、強化学習、表現学習

本稿では、世界モデルに基づく強化学習であるDreamerV2とDreamingを拡張したDreamingV2を提案する。DreamerV2は潜在状態をカテゴリ変数で表現する離散世界モデルを用いた強化学習手法である。またDreamingは、対照学習により、一般的な世界モデル学習におけるオートエンコーディング（再構成）の過程を用いない強化学習手法である。提案するDreamingV2は、DreamingV2の離散状態表現とDreamingの再構成不要な世界モデル学習の両者を採用した手法である。5つのロボットアームのタスクのシミュレーション実験において、DreamingV2はDreamerV2および最新の世界モデルを上回る性能を達成した。DreamingV2は実世界の不連続的なダイナミクスを離散表現で適切に表現でき、また実世界の複雑な画像観測の再構成を不要とすることから、DreamingV2はロボット強化学習の有効な手段であると考えられる。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2M1-OS-19a] 世界モデルと知能(1/4)

[2M1-OS-19a-01] DreamingV2: 再構成不要な離散状態世界モデル学習と強化学習

パスワード