2021年度 人工知能学会全国大会(第35回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4I2-GS-7c] 画像音声メディア処理:音声認識と指示理解

2021年6月11日(金) 11:00 〜 12:40 I会場 (GS会場 4)

座長:宮西 大樹(国際電気通信基礎技術研究所)

11:20 〜 11:40

[4I2-GS-7c-02] StarGAN-VCを用いた話者非依存音響特徴量抽出と二重分節解析への応用

〇小村 漱一朗1、林 楓1、谷口 彰1、谷口 忠大 1、亀岡 弘和2 (1. 立命館大学、2. NTTコミュニケーション科学基礎研究所)

キーワード:二重分節構造解析器、StarGAN-VC、Neuro-SERKET、教師なし学習

教師なし学習によって連続的音声から音素および語彙の獲得を行う手法の一つに二重分節構造解析器 (Nonparametric Bayesian double articulation analyzer: NPB-DAA) がある.NPB-DAAでは音響特徴量の話者依存性は複数話者からなる音声データセットの学習において問題とされる.本研究の目的はStar generative adversarial network for voice conversion (StarGAN-VC) を話者非依存音響特徴量の抽出を行うモデルとして活用し,Neuro-SERKERTを用いたNPB-DAAとStarGAN-VCの相互学習による最適化が可能な統合モデルの構築を行うことである.NPB-DAAとStarGAN-VCの統合モデルにおける相互学習の有効性について実験を通して検証を行った.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード