潜在空間上における目標状態へのベクトルとしての行動表現

原田 憲旺

13:40 〜 14:00

[2M4-OS-19b-02] 潜在空間上における目標状態へのベクトルとしての行動表現

〇原田憲旺¹、鈴木雅大¹、松尾豊¹ (1. 東京大学)

キーワード：潜在行動、表現学習

既存の強化学習における枠組みでは，行動空間の設計には重点を置かれないまま行動を行動空間の点として扱っている．既存の強化学習の行動への捉え方とは異なり，我々は人間の行動過程を参考に，目標状態への到達に向けた潜在空間上での変化量として行動をとらえ，これを潜在行動と定義する．
潜在空間上での制御目標までの距離を最小化するように潜在行動を取ることが実際の入力空間における最適行動に対応することを目指し，未来の観測を予測する変分自己符号化器を使用した潜在空間の表現学習手法を検討する.
未来の観測を予測しない, 現在の観測を復元するような変分自己符号化器を使用し, 入力空間での制御目標との誤差から行動を選択する手法と比べ安定して制御目標に収束することを実験で示し, 今後潜在行動による行動選択手法を拡張させていく上で課題となりうる事柄について考察する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2M4-OS-19b] 世界モデルと知能(2/4)

[2M4-OS-19b-02] 潜在空間上における目標状態へのベクトルとしての行動表現

パスワード