2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[3D1-GS-2] 機械学習:画像認識

2024年5月30日(木) 09:00 〜 10:40 D会場 (イベントホール仮設2)

座長:金井 関利(日本電信電話株式会社)

10:20 〜 10:40

[3D1-GS-2-05] 状態空間モデルを用いたメモリ効率的な動画生成拡散モデル

〇大島 佑太1、谷口 尚平1、鈴木 雅大1、松尾 豊1 (1. 東京大学大学院)

キーワード:動画生成、拡散モデル、状態空間モデル

近年の動画生成拡散モデルでは,注意機構層を用いて動画の時間方向の特徴を捉えている.しかし,注意機構層は系列長の二乗に比例するメモリを要求するため,長期の動画を生成しようとした場合にメモリの観点で困難が生じる.この限界を克服すべく,状態空間モデル(SSM)を利用することを提案する.SSMは系列長の一乗に比例するメモリ要件から,注意機構の有用な代替機構として知られている.UCF101を用いた実験で,SSMベースの動画拡散モデルは,注意機構ベースのモデルを上回るFŕechet Video距離(FVD)を達成した.さらに,より長いビデオ生成におけるSSMの可能性を調べるために,MineRL Navigateを用いた実験を行った.この設定では,SSMベースのモデルは,競争力のあるFVDスコアを維持しながら,より長い系列に対してメモリ消費量を節約できることが確認された.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード