状態空間モデルを用いたメモリ効率的な動画生成拡散モデル

大島 佑太

10:20 〜 10:40

[3D1-GS-2-05] 状態空間モデルを用いたメモリ効率的な動画生成拡散モデル

〇大島佑太¹、谷口尚平¹、鈴木雅大¹、松尾豊¹ (1. 東京大学大学院)

キーワード：動画生成、拡散モデル、状態空間モデル

近年の動画生成拡散モデルでは，注意機構層を用いて動画の時間方向の特徴を捉えている．しかし，注意機構層は系列長の二乗に比例するメモリを要求するため，長期の動画を生成しようとした場合にメモリの観点で困難が生じる．この限界を克服すべく，状態空間モデル（SSM）を利用することを提案する．SSMは系列長の一乗に比例するメモリ要件から，注意機構の有用な代替機構として知られている．UCF101を用いた実験で，SSMベースの動画拡散モデルは，注意機構ベースのモデルを上回るFŕechet Video距離(FVD)を達成した．さらに，より長いビデオ生成におけるSSMの可能性を調べるために，MineRL Navigateを用いた実験を行った．この設定では，SSMベースのモデルは，競争力のあるFVDスコアを維持しながら，より長い系列に対してメモリ消費量を節約できることが確認された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3D1-GS-2] 機械学習：画像認識

[3D1-GS-2-05] 状態空間モデルを用いたメモリ効率的な動画生成拡散モデル

パスワード