2022年度 人工知能学会全国大会(第36回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-19 世界モデルと知能

[2M5-OS-19c] 世界モデルと知能(3/4)

2022年6月15日(水) 15:20 〜 17:00 M会場 (Room B-2)

オーガナイザ:鈴木 雅大(東京大学)、岩澤 有祐(東京大学)[現地]、河野 慎(東京大学)、熊谷 亘(東京大学)、森 友亮(スクウェア・エニックス)、松尾 豊(東京大学)

16:20 〜 16:40

[2M5-OS-19c-04] 制御方策の学習アルゴリズムにおける時間の離散化の影響と連続時間への拡張に向けた考察

〇松嶋 達也1、有馬 純平2、鈴木 海渡3、岩澤 有祐1、松尾 豊1 (1. 東京大学、2. 松尾研究所、3. 東北大学)

キーワード:ロボット学習、強化学習、深層強化学習、時間離散化

深層強化学習分野を中心に,画像などの高次元のセンサ情報を入力にエージェントの方策をend-to-endに学習する試みは数多く行われており,主にビデオゲームやロボットの簡易なシミュレータを用いて有効性が検証されてきた.これらの研究で利用される環境の多くは,時間が離散化され,観測や行動が同期的に動作する前提で設計されている.これは,様々なセンサやアクチュエータが異なる周波数で非同期的に動作し,計算時間も考慮に入れる必要がある実ロボットシステムの性質と異なっており,現実世界でend-to-endな制御方策の学習が困難な要因の一つである.本論文では,時間の離散化に関するこれまでの研究をまとめて議論したあと,実験として,連続値制御の深層強化学習で頻繁に利用されるアルゴリズムとロボットシミュレーション環境を用いて,時間の離散化幅が学習される方策の性能に与える影響に関して検証し,考察を行う.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード