2024年度 人工知能学会全国大会(第38回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-9 Affective Computing

[2L1-OS-9a] Affective Computing

2024年5月29日(水) 09:00 〜 10:40 L会場 (52会議室)

オーガナイザ:熊野 史朗(NTT コミュニケーション科学基礎研究所)、日永田 智絵(奈良先端科学技術大学院大学)、森田 純哉(静岡大学)、菅谷 みどり(芝浦工業大学)、鈴木 健嗣(筑波大学)

09:40 〜 10:00

[2L1-OS-9a-03] 音声感情認識のための学習データ拡張手法の検討および分析

〇目良 和也1、坂根 剛1、黒澤 義明1、竹澤 寿幸1 (1. 広島市立大学)

キーワード:音声感情認識、データ拡張、メルスペクトログラム

近年,機械学習を用いた音声感情認識に関する研究が注目されつつある.そして,音声収集や感情ラベリングの容易さから,学習データとして演技感情音声データがよく用いられている.しかし,演技者の属性や必要な感情クラスなどが多種多様であるため,システム構築者の目的に合った音声データを十分に収集することは容易でない.
そこで学習データの量を増やす方法の1つとして,データ拡張(data augmentation)が挙げられる.音声認識や画像認識の分野ではさまざまなデータ拡張手法が提案されてきたが,感情音声に有効なデータ拡張手法の比較検討は行われていない.
 そこで本発表では,音声感情認識における感情音声に対するデータ拡張手法について比較検討する.対象とするデータ拡張手法は,時間マスキング,時間伸縮,周波数マスキング,周波数伸縮,声質変換,感情音声結合の6種類とする.各データ拡張手法の有効性について機械学習器による4感情分類実験を行った結果,時間マスキング,声質変換,感情音声結合が有効であることが示された.そして,複数の手法を組み合わせることでさらに性能が向上することも確認できた.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード