2023年度 人工知能学会全国大会(第37回)

講演情報

ポスターセッション

一般セッション » ポスターセッション

[4Xin1] ポスターセッション2

2023年6月9日(金) 09:00 〜 10:40 X会場 (展示ホールB)

[4Xin1-26] GANを用いた声質変換における周波数帯域ごとの分析

〇和田 楓也1、黒澤 義明1、目良 和也1、竹澤 寿幸1 (1.広島市立大学)

キーワード:声質変換、GAN、Generative Adversarial Networks

近年,深層学習により高品質な音声合成・声質変換が行えるようになっている.
従来の手法では,GAN(Generative Adversarial Network)を用い,声質変換を行っている.
しかし,生成された音声は本物の音声と比べ,ややこもったような音声となっており,生成された2次元特徴量に関しても不十分な箇所はある.
そこで本研究では,生成されるSpectrogramを数個の周波数帯域ごとに分割し,それぞれの周波数帯域ごとのMCD(Mel-Cepstrum Distortion)を計算し,どの周波数帯域がうまく生成されている調査・分析を行う.
分析の結果、生成されたSpectrogramの低周波帯域はうまく生成できていたが,中・高周波帯域は生成が不十分であることが分かった.
また,言語情報の再現はできているが,話者性の再現は不十分であることも分かった.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード