[4Xin1-23] 音声とテキストのマルチモーダル Transformer エンコーダに基づく感情表現認識
キーワード:感情認識、ニューラルネットワーク、マルチモーダル処理
感情表現は,感情を伴う発話認識・生成や感情的心理状態の可視化に重要であり,商業・教育など様々な分野へ応用されている.近年では,複数のモダリティを用いたマルチモーダルな感情表現認識を行う研究が盛んに行われている.しかし,各モダリティを融合する手法やデータセットの不足など,まだ課題が多く存在している.本研究では,音声のWav2vec 2.0によるエンコーディング及び音声認識モデルWhisperによる文字起こしテキストのRoBERTaによるエンコーディングを入力とする音声・テキスト特徴間のクロスモーダルアテンションTransformer に基づく感情表現認識モデルを提案する.長い音声データは入力可能なサイズに分割し,分割した音声ごとに感情表現認識をして合議を取ることで,1つの音声データに含まれる複数の感情表現を分割して処理するアプローチをとっている.その結果,音声とその認識テキストを入力とした本モデルは,用意された音声とテキストを用いた場合と同程度の認識精度が得られ,モデルの実用性向上を可能にした.また,感情表現認識タスクに対する音声の事前学習モデルの有効性を確認できた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。