2023年度 人工知能学会全国大会(第37回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-21 世界モデルと知能

[1G4-OS-21a] 世界モデルと知能

2023年6月6日(火) 15:00 〜 16:40 G会場 (大会議室 A4)

オーガナイザ:鈴木 雅大、岩澤 有祐、河野 慎、熊谷 亘、松嶋 達也、森 友亮、松尾 豊

15:20 〜 15:40

[1G4-OS-21a-02] 行動条件付けVideoGPTの構築と検証

〇田畑 浩大1,6、蒲原 惇乃輔2,6、海野 良介1,6、佐藤 誠人3,6、渡部 泰樹4,6、久米 大雅5,6、根岸 優大1,6、岡田 領1,6、岩澤 有祐1、松尾 豊1 (1. 東京大学、2. 東北大学、3. 奈良先端科学技術大学院大学、4. 早稲田大学、5. 慶應義塾大学、6. 株式会社松尾研究所)

キーワード:世界モデル、条件付き動画予測

世界モデルは外界の観測をもとに外部構造を獲得するモデルのことであり,エージェントの行動に伴って変化する外界の将来の状態を予想することができる.近年の生成モデルや言語モデルの進歩はマルチモーダルな世界モデルの発展に貢献しており,自動運転やロボティクスなどの多くのドメインでの応用が期待されている.映像予測は,高精細さと長期予測という点で進展した分野であり,時間的表現の獲得を目的とする世界モデルの応用が考えられる.モデルアーキテクチャの例として,再構成タスクを学習することによって観測の潜在的な表現を学習するEncode-Decoderベースの潜在変数モデルと潜在変数列を予想するTransformerベースの自己回帰モデルの組み合わせが良い性能を発揮している.本研究では,VQVAEとImage-GPTを用いたVideoGPTと呼ばれる動画予測モデルに行動条件付けを導入することで拡張した.CARLAとRoboNetを用いた検証の結果,条件付けなしのモデルと比較して性能が向上した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード