15:00 〜 15:20
[3N4-GS-7-05] 音源の視覚情報と3次元位置情報で条件付けした拡散モデルによるバイノーラル音声生成
キーワード:音声生成、マルチモーダル処理、画像処理、拡散モデル
専用機材を使わずに立体音響を取得する手法として,動画や画像をコンテキストとして活用し,モノラル音声を実際の聴覚体験に近いバイノーラル音声に変換するタスクが注目されている.先行研究では,回帰モデルによって複素スペクトログラムに対するマスクを推定し,目的音声の振幅と位相を一度に取得しているが,音の定位が不正確で立体感に乏しい課題がある.この改善のため,本研究では,拡散モデルで振幅スペクトログラムを生成した後に,ボコーダで位相を推定し,音声波形を構築するアプローチを採用した.また,深度推定を用いて画像のピクセル位置から現実世界の座標を求め,音源の3次元位置を示す特徴を抽出してモデルに組み込んだ.提案モデルをベースラインと比較した結果,バイノーラル音声の振幅成分の再現度の面で上回った.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。