StarGAN-VC+ASR：音声認識結果を正則化に活用した教師なし音声変換

阪本 翔紀

11:00 〜 11:20

[4I2-GS-7c-01] StarGAN-VC+ASR：音声認識結果を正則化に活用した教師なし音声変換

〇阪本翔紀¹、谷口彰¹、谷口忠大¹、亀岡弘和² (1. 立命館大学、2. NTTコミュニケーション科学基礎研究所)

キーワード：教師なし音声変換、StarGAN-VC、自動音声認識器、言語情報、正則化

Star generative adversarial network for voice conversion (StarGAN-VC) はノンパラレルなデータを扱え，多対多の音声変換を可能とした手法である。音声変換タスクにおいて，言語情報を元通り保持することは非常に重要である．しかし，StarGAN-VCによって変換された音声はしばしば言語情報が崩れるといった問題が見られる．これはStarGAN-VCが音声変換の学習を行う際に言語情報を一切用いず，音響特徴量のみに注視して学習していることが理由として考えられる．よって，本稿ではStarGAN-VCの生成器の学習に音声認識装置 (automatic speech recognition：ASR) によって推定された音声認識結果を活用する手法StarGAN-VC+ASRを提案する．実験では，提案手法がStarGAN-VCよりも言語情報の保持を可能とすることを明らかにした．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4I2-GS-7c] 画像音声メディア処理：音声認識と指示理解

[4I2-GS-7c-01] StarGAN-VC+ASR：音声認識結果を正則化に活用した教師なし音声変換

パスワード