13:00 〜 13:20
[4E2-OS-19a-04] マルチモーダル情報に基づく応答と表情の自動生成
キーワード:マルチモーダル、感情的応答、対話
深層学習を用いた対話システムの研究において,感情表現を生成する手法が提案されているが,これらは言語データを入力とし,感情表現を含む言語表現を生成するものであった. 一方,傾聴やコミュニケーション支援を目的とした会話エージェントでは,ユーザの発話に対して会話の流れや文脈に適した共感/非共感,肯定,謝罪等の感情表現を伴う相槌的な応答を生成することが重要であるが,会話エージェントは顔表現を有するため,言語表現だけでなく,顔表情も感情に適したものを生成する必要がある.そこで本研究では,ユーザの音声,言語,表情を入力とし,それへの相槌的応答として言語表現と顔表情を出力する手法を提案することを目的とする.まず,音声,言語,表情の各モダリティについて深層学習によるencoderモデルを学習し,それらをフュージョンしたマルチモーダルencoderを作成する.さらにマルチモーダルencoderから得られた表現から相槌の言語表現と表情パラメータとしてEckmanのアクションユニット(AU)を予測するモデルを作成した.モデル評価の結果、提案モデルはベースラインモデルの性能を大きく越えることを確認した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。