[4Xin1-26] GANを用いた声質変換における周波数帯域ごとの分析
キーワード:声質変換、GAN、Generative Adversarial Networks
近年,深層学習により高品質な音声合成・声質変換が行えるようになっている.
従来の手法では,GAN(Generative Adversarial Network)を用い,声質変換を行っている.
しかし,生成された音声は本物の音声と比べ,ややこもったような音声となっており,生成された2次元特徴量に関しても不十分な箇所はある.
そこで本研究では,生成されるSpectrogramを数個の周波数帯域ごとに分割し,それぞれの周波数帯域ごとのMCD(Mel-Cepstrum Distortion)を計算し,どの周波数帯域がうまく生成されている調査・分析を行う.
分析の結果、生成されたSpectrogramの低周波帯域はうまく生成できていたが,中・高周波帯域は生成が不十分であることが分かった.
また,言語情報の再現はできているが,話者性の再現は不十分であることも分かった.
従来の手法では,GAN(Generative Adversarial Network)を用い,声質変換を行っている.
しかし,生成された音声は本物の音声と比べ,ややこもったような音声となっており,生成された2次元特徴量に関しても不十分な箇所はある.
そこで本研究では,生成されるSpectrogramを数個の周波数帯域ごとに分割し,それぞれの周波数帯域ごとのMCD(Mel-Cepstrum Distortion)を計算し,どの周波数帯域がうまく生成されている調査・分析を行う.
分析の結果、生成されたSpectrogramの低周波帯域はうまく生成できていたが,中・高周波帯域は生成が不十分であることが分かった.
また,言語情報の再現はできているが,話者性の再現は不十分であることも分かった.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。