深層学習を用いた画像変換に基づく会話からの音声抽出

髙市 晃佑

10:30 〜 12:10

[3Rin2-31] 深層学習を用いた画像変換に基づく会話からの音声抽出

〇髙市晃佑¹、片上敬雄²、黒澤義明¹、目良和也¹、竹澤寿幸¹ (1. 広島市立大学大学院情報科学研究科、2. 広島市立大学情報科学部)

キーワード：音源分離、深層学習、pix2pix

近年盛んである深層学習を用い音源を分離することを目的とする．ネットワークを用い通常の会話から特定の人間の声を抽出することを試みる．画像変換を行うpix2pixに注目する．そのアルゴリズムは純粋な画像変換の手続きに基づくため，追加の手続きとして音声を一度スペクトログラムに変換する必要がある．その後，人間の声を分離するためにネットワークを学習し、特に同性と異性の違いに注意して抽出を行う．この観点から、本稿では男女の声を重ねた音声を使って2つの実験を行った．SSIMとカラーマップを評価の基準に使用した．結果として，女性の声が良く抽出できていることを確認した．ところが，女性同士の発話から抽出はできなかった．今回，分離はうまくいかなかったという結論に至った．しかしながら，生成された音声は自然に再生されたと思われる．今後の課題は，こうした人間の判断を客観的に判定することである．

講演情報

[3Rin2] インタラクティブセッション１

[3Rin2-31] 深層学習を用いた画像変換に基づく会話からの音声抽出