15:20 〜 15:40
[1G4-OS-21a-02] 行動条件付けVideoGPTの構築と検証
キーワード:世界モデル、条件付き動画予測
世界モデルは外界の観測をもとに外部構造を獲得するモデルのことであり,エージェントの行動に伴って変化する外界の将来の状態を予想することができる.近年の生成モデルや言語モデルの進歩はマルチモーダルな世界モデルの発展に貢献しており,自動運転やロボティクスなどの多くのドメインでの応用が期待されている.映像予測は,高精細さと長期予測という点で進展した分野であり,時間的表現の獲得を目的とする世界モデルの応用が考えられる.モデルアーキテクチャの例として,再構成タスクを学習することによって観測の潜在的な表現を学習するEncode-Decoderベースの潜在変数モデルと潜在変数列を予想するTransformerベースの自己回帰モデルの組み合わせが良い性能を発揮している.本研究では,VQVAEとImage-GPTを用いたVideoGPTと呼ばれる動画予測モデルに行動条件付けを導入することで拡張した.CARLAとRoboNetを用いた検証の結果,条件付けなしのモデルと比較して性能が向上した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。