09:40 〜 10:00
[2L1-OS-9a-03] 音声感情認識のための学習データ拡張手法の検討および分析
キーワード:音声感情認識、データ拡張、メルスペクトログラム
近年,機械学習を用いた音声感情認識に関する研究が注目されつつある.そして,音声収集や感情ラベリングの容易さから,学習データとして演技感情音声データがよく用いられている.しかし,演技者の属性や必要な感情クラスなどが多種多様であるため,システム構築者の目的に合った音声データを十分に収集することは容易でない.
そこで学習データの量を増やす方法の1つとして,データ拡張(data augmentation)が挙げられる.音声認識や画像認識の分野ではさまざまなデータ拡張手法が提案されてきたが,感情音声に有効なデータ拡張手法の比較検討は行われていない.
そこで本発表では,音声感情認識における感情音声に対するデータ拡張手法について比較検討する.対象とするデータ拡張手法は,時間マスキング,時間伸縮,周波数マスキング,周波数伸縮,声質変換,感情音声結合の6種類とする.各データ拡張手法の有効性について機械学習器による4感情分類実験を行った結果,時間マスキング,声質変換,感情音声結合が有効であることが示された.そして,複数の手法を組み合わせることでさらに性能が向上することも確認できた.
そこで学習データの量を増やす方法の1つとして,データ拡張(data augmentation)が挙げられる.音声認識や画像認識の分野ではさまざまなデータ拡張手法が提案されてきたが,感情音声に有効なデータ拡張手法の比較検討は行われていない.
そこで本発表では,音声感情認識における感情音声に対するデータ拡張手法について比較検討する.対象とするデータ拡張手法は,時間マスキング,時間伸縮,周波数マスキング,周波数伸縮,声質変換,感情音声結合の6種類とする.各データ拡張手法の有効性について機械学習器による4感情分類実験を行った結果,時間マスキング,声質変換,感情音声結合が有効であることが示された.そして,複数の手法を組み合わせることでさらに性能が向上することも確認できた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。