制御方策の学習アルゴリズムにおける時間の離散化の影響と連続時間への拡張に向けた考察

松嶋 達也

16:20 〜 16:40

[2M5-OS-19c-04] 制御方策の学習アルゴリズムにおける時間の離散化の影響と連続時間への拡張に向けた考察

〇松嶋達也¹、有馬純平²、鈴木海渡³、岩澤有祐¹、松尾豊¹ (1. 東京大学、2. 松尾研究所、3. 東北大学)

キーワード：ロボット学習、強化学習、深層強化学習、時間離散化

深層強化学習分野を中心に，画像などの高次元のセンサ情報を入力にエージェントの方策をend-to-endに学習する試みは数多く行われており，主にビデオゲームやロボットの簡易なシミュレータを用いて有効性が検証されてきた．これらの研究で利用される環境の多くは，時間が離散化され，観測や行動が同期的に動作する前提で設計されている．これは，様々なセンサやアクチュエータが異なる周波数で非同期的に動作し，計算時間も考慮に入れる必要がある実ロボットシステムの性質と異なっており，現実世界でend-to-endな制御方策の学習が困難な要因の一つである．本論文では，時間の離散化に関するこれまでの研究をまとめて議論したあと，実験として，連続値制御の深層強化学習で頻繁に利用されるアルゴリズムとロボットシミュレーション環境を用いて，時間の離散化幅が学習される方策の性能に与える影響に関して検証し，考察を行う．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2M5-OS-19c] 世界モデルと知能(3/4)

[2M5-OS-19c-04] 制御方策の学習アルゴリズムにおける時間の離散化の影響と連続時間への拡張に向けた考察

パスワード