10:30 〜 12:10
[3Rin2-31] 深層学習を用いた画像変換に基づく会話からの音声抽出
キーワード:音源分離、深層学習、pix2pix
近年盛んである深層学習を用い音源を分離することを目的とする.ネットワークを用い通常の会話から特定の人間の声を抽出することを試みる.画像変換を行うpix2pixに注目する.そのアルゴリズムは純粋な画像変換の手続きに基づくため,追加の手続きとして音声を一度スペクトログラムに変換する必要がある.その後,人間の声を分離するためにネットワークを学習し、特に同性と異性の違いに注意して抽出を行う.この観点から、本稿では男女の声を重ねた音声を使って2つの実験を行った.SSIMとカラーマップを評価の基準に使用した.結果として,女性の声が良く抽出できていることを確認した.ところが,女性同士の発話から抽出はできなかった.今回,分離はうまくいかなかったという結論に至った.しかしながら,生成された音声は自然に再生されたと思われる.今後の課題は,こうした人間の判断を客観的に判定することである.