17:00 〜 17:20
[3G5-GS-6-05] 音声と言語のマルチモーダル融合に基づく感情認識モデルの提案
キーワード:マルチモーダル感情認識、Transformer、Self-Attention
マルチモーダル感情認識は、音声、言語、画像など複数のモダリティを統合することで、人間の感情をより包括的かつ正確に識別・分析する技術である。近年のAIによる対話の分野においても円滑な対話を実現するために必要不可欠な技術の一つである。音声や言語など異なるモダリティのデータを融合することで、シングルモーダル感情分析では考慮できない異モダリティ間の相互作用や相関性を考慮し、感情認識の汎用性と精度の向上が期待できる。本研究では、Transformerモデルを基盤として、音声と言語を入力とするマルチモーダル感情分析モデルを構築した。このモデルは、音声および言語情報それぞれのTransformerエンコーダの出力を連結したものに対しSelf -Attentionを適用することにより、音声と言語の関連性を保ったまま融合することを可能にしている。本稿では、感情認識タスクの標準データセットであるCMU-MOSEIに対し、複数の既存手法との比較評価実験を実施し、提案モデルの性能を検証し、感情認識におけるマルチモーダル融合の優位性を確認した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。