2020年度 人工知能学会全国大会(第34回)

講演情報

一般セッション

一般セッション » J-10 画像・音声

[2Q1-GS-10] 画像・音声: 基礎理論と応用

2020年6月10日(水) 09:00 〜 10:40 Q会場 (jsai2020online-17)

座長:橋本博志(NEC)

09:00 〜 09:20

[2Q1-GS-10-01] スペクトログラムテンプレートの学習に基づく解釈可能な深層クラスタリング法

〇渡邊 千紘1、亀岡 弘和1 (1. NTTコミュニケーション科学基礎研究所)

キーワード:深層クラスタリング法、解釈可能性、音源分離

複数の話者による混合音声信号のスペクトログラムから,各時間周波数点における主要な話者ラベルを推定する音源分離の問題において,近年深層クラスタリング法と呼ばれる手法の有効性が示されている.深層クラスタリング法は,まずニューラルネットを用いて各時間周波数点の低次元埋め込み表現を学習し,得られた埋め込みベクトルのクラスタリングにより音源分離を行う方法であり,任意の話者数の音声信号に対し高精度な分離が可能である一方,埋め込み表現の意味解釈が困難であり,未知音源や学習データが限定的な音源に対応可能なより汎化性能の高いモデルを構築するための見通しが立てづらいという課題が存在する.そこで,本研究では,高精度かつ解釈可能な音源分離手法を構築することを目的として,新たなニューラルネットワークモデルを提案する.提案モデルにおける各時間周波数点の音源分離のメカニズムは,非負の要素を持つスペクトログラムテンプレートの重み付き和として解釈可能であり,さらに学習された各テンプレートは音声信号の調波構造を捉えたものになることが実験的に示された.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード