[4Rin1-62] 大規模対話音声コーパス作成を目的とする振幅情報と位相情報に着目した複数話者と単数話者の区間分類
キーワード:音声、深層学習、音声コーパス
近年End-to-Endによる合成音声システムの発達により,大規模音声コーパスの必要性が高まっている.対話音声から音声コーパスを作成する場合,対話音声を話者ごとに切り出しアノテーションを行う.しかし,このタスクは非常に負担がかかるため本研究では,音声コーパス作成支援の基礎研究とする.本研究では,音声コーパス作成支援として対話音声から複数話者と単数話者の区間分類を行う.特に,音声特徴量として従来手法として用いられる振幅だけでなく,音声の位相情報に基づいた音声特徴量を用い分類を行うことを提案する.加えて,従来のRNNによる分類結果とCNNによる分類手法を提案手法として挙げる.結果,複数話者と単数話者の分類は,音声位相情報を用いることで分類可能であり,CNNを用いることで分類精度が向上するという知見が得られた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。