GANを用いた声質変換における周波数帯域ごとの分析

和田 楓也; 黒澤 義明; 目良 和也; 竹澤 寿幸

[4Xin1-26] GANを用いた声質変換における周波数帯域ごとの分析

〇和田楓也¹、黒澤義明¹、目良和也¹、竹澤寿幸¹ (1.広島市立大学)

キーワード：声質変換、GAN、Generative Adversarial Networks

近年，深層学習により高品質な音声合成・声質変換が行えるようになっている．
従来の手法では，GAN(Generative Adversarial Network)を用い，声質変換を行っている．
しかし，生成された音声は本物の音声と比べ，ややこもったような音声となっており，生成された2次元特徴量に関しても不十分な箇所はある．
そこで本研究では，生成されるSpectrogramを数個の周波数帯域ごとに分割し，それぞれの周波数帯域ごとのMCD(Mel-Cepstrum Distortion)を計算し，どの周波数帯域がうまく生成されている調査・分析を行う．
分析の結果、生成されたSpectrogramの低周波帯域はうまく生成できていたが，中・高周波帯域は生成が不十分であることが分かった．
また，言語情報の再現はできているが，話者性の再現は不十分であることも分かった．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4Xin1] ポスターセッション2

[4Xin1-26] GANを用いた声質変換における周波数帯域ごとの分析

パスワード