拡散モデルを用いたAttention機構と潜在空間での最適化を活用した音声編集

大矢 友貴; 西村 康孝; 多屋 優人

[3Win5-99] 拡散モデルを用いたAttention機構と潜在空間での最適化を活用した音声編集

〇大矢友貴¹、西村康孝¹、多屋優人¹ (1.KDDI総合研究所)

キーワード：拡散モデル、音声編集、最適化

近年，事前学習済みの拡散モデルを用いたゼロショットの編集手法がコンピュータビジョン分野で注目を集めており，音声編集への応用に対する関心も高まっている．従来の音声編集手法は，拡散モデルのクロスアテンションマップを活用しているが，多様なプロンプトに適応することができず，実際のシーンにおける信頼性が低下している．本研究では，拡散モデルのアテンション機構を用いて潜在空間レベルで操作する新しい音声編集フレームワークを提案する．本手法はクロスアテンションの操作を通じて編集を調整し，編集指示と中間の編集された音声との類似性を最適化することで，精密な整合性を確保する．複数の音声データに対して提案手法と従来手法との比較評価を行った結果，本フレームワークは高い編集精度を達成し，元の音声構造を保持する音声の一貫性を維持する点で従来手法を上回ることが示された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3Win5] ポスターセッション3

[3Win5-99] 拡散モデルを用いたAttention機構と潜在空間での最適化を活用した音声編集

パスワード