14:40 〜 15:00
[3N4-GS-7-04] ビーム探索を用いた動画拡散モデルの推論時アラインメント
キーワード:動画生成、拡散モデル、アラインメント
動画生成拡散モデルの進歩で高精細な動画生成が可能となったが,生成動画には不自然な動きや変形,逆再生,動きのないシーンが多い.時間方向の知覚品質改善にはまだ大きな余地があり,どの指標をどう最適化すべきかは未解明である.本研究では,知覚的ビデオ品質の向上には既存指標の報酬調整が必要と指摘する.視覚言語モデルを人間評価者の代理として用いた場合,動画自然さを測る既存指標は必ずしも相関せず,評価プロンプトの動的度にも依存する.そこで複数指標を線形補間し,報酬値を知覚的品質に合わせる手法を提案する.さらに拡散潜在ビーム探索を導入し,報酬調整後に高品質な出力を得る.この手法はモデルパラメタを更新せず知覚品質を向上させ,従来の貪欲探索や最良のNサンプリングより同じ計算予算で高品質を得られる.ノイズ除去ステップごとの計算配分や探索の幅・深さの調整など,実践的なガイドラインも示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。