2021年度 人工知能学会全国大会(第35回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4I2-GS-7c] 画像音声メディア処理:音声認識と指示理解

2021年6月11日(金) 11:00 〜 12:40 I会場 (GS会場 4)

座長:宮西 大樹(国際電気通信基礎技術研究所)

11:00 〜 11:20

[4I2-GS-7c-01] StarGAN-VC+ASR:音声認識結果を正則化に活用した教師なし音声変換

〇阪本 翔紀1、谷口 彰1、谷口 忠大1、亀岡 弘和2 (1. 立命館大学、2. NTTコミュニケーション科学基礎研究所)

キーワード:教師なし音声変換、StarGAN-VC、自動音声認識器、言語情報、正則化

Star generative adversarial network for voice conversion (StarGAN-VC) はノンパラレルなデータを扱え,多対多の音声変換を可能とした手法である。音声変換タスクにおいて,言語情報を元通り保持することは非常に重要である.しかし,StarGAN-VCによって変換された音声はしばしば言語情報が崩れるといった問題が見られる.これはStarGAN-VCが音声変換の学習を行う際に言語情報を一切用いず,音響特徴量のみに注視して学習していることが理由として考えられる.よって,本稿ではStarGAN-VCの生成器の学習に音声認識装置 (automatic speech recognition:ASR) によって推定された音声認識結果を活用する手法StarGAN-VC+ASRを提案する.実験では,提案手法がStarGAN-VCよりも言語情報の保持を可能とすることを明らかにした.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード