2018年度人工知能学会全国大会(第32回)

講演情報

口頭発表

一般セッション » [一般セッション] 10.画像・音声

[2N1] 画像・音声-音声システム

2018年6月6日(水) 09:00 〜 10:20 N会場 (2F 桜島)

座長:辻川 剛範(NEC)

09:00 〜 09:20

[2N1-01] 変分自己符号化器を用いた表現の多様性のモデル化による表現豊かな音声合成

〇阿久澤 圭1、岩澤 有祐1、松尾 豊1 (1. 東京大学)

キーワード:表現豊かな音声合成、変分自己符号化器、自己回帰生成モデル

近年深層学習を用いた自己回帰生成モデルは音声合成の性能を向上させている.
しかし,自己回帰生成モデルに基づいた音声合成システムに表現の豊かさを備えさせることは,自己回帰生成モデルが話者性,話し方といった音声の大域的な特徴を学習するのが苦手であることから,まだ未解決の問題となっている.
本稿では,VAEと自己回帰モデルの一つであるVoiceLoopを統合したモデルVAE-Loopを提案する.従来の自己回帰生成モデルに基づいた音声合成モデルと違い,提案手法は音声の大域的な特徴をVAEによって明示的にモデル化することができる.
VCTKやBlizzard2012を用いた実験では,VAEが学習した大域的な特徴を用いることで,VoiceLoopがより高品質な音声を生成すること,及び表現をコントロールできることを示す.