行動条件付けVideoGPTの構築と検証

田畑 浩大

15:20 〜 15:40

[1G4-OS-21a-02] 行動条件付けVideoGPTの構築と検証

〇田畑浩大^1,6、蒲原惇乃輔^2,6、海野良介^1,6、佐藤誠人^3,6、渡部泰樹^4,6、久米大雅^5,6、根岸優大^1,6、岡田領^1,6、岩澤有祐¹、松尾豊¹ (1. 東京大学、2. 東北大学、3. 奈良先端科学技術大学院大学、4. 早稲田大学、5. 慶應義塾大学、6. 株式会社松尾研究所)

キーワード：世界モデル、条件付き動画予測

世界モデルは外界の観測をもとに外部構造を獲得するモデルのことであり，エージェントの行動に伴って変化する外界の将来の状態を予想することができる．近年の生成モデルや言語モデルの進歩はマルチモーダルな世界モデルの発展に貢献しており，自動運転やロボティクスなどの多くのドメインでの応用が期待されている．映像予測は，高精細さと長期予測という点で進展した分野であり，時間的表現の獲得を目的とする世界モデルの応用が考えられる．モデルアーキテクチャの例として，再構成タスクを学習することによって観測の潜在的な表現を学習するEncode-Decoderベースの潜在変数モデルと潜在変数列を予想するTransformerベースの自己回帰モデルの組み合わせが良い性能を発揮している．本研究では，VQVAEとImage-GPTを用いたVideoGPTと呼ばれる動画予測モデルに行動条件付けを導入することで拡張した．CARLAとRoboNetを用いた検証の結果，条件付けなしのモデルと比較して性能が向上した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1G4-OS-21a] 世界モデルと知能

[1G4-OS-21a-02] 行動条件付けVideoGPTの構築と検証

パスワード