マルチモーダル情報に基づく相槌的応答と表情強度の推定

上野 諒祐

11:00 〜 11:20

[3E2-OS-5b-01] マルチモーダル情報に基づく相槌的応答と表情強度の推定

〇上野諒祐¹、坂戸達陽²、中野有紀子² (1. 成蹊大学大学院理工学研究科、2. 成蹊大学理工学部)

キーワード：表情、アクションユニット、相槌的応答、マルチパーティコミュニケーション、ニューラルネットワーク

話し手に相槌を返すことは，会話を維持するために不可欠なコミュニケーション信号である．話し手の発言に対する聞き手の反応を伝えるためには，言語による相槌的応答だけでなく表情も有効なモダリティとなる．また，表情の種類だけでなく，表情の強さも相槌の意味に影響を与える可能性がある．
本研究では，マルチモーダルな深層学習モデルを提案し，相槌と同時に発生する表情の強さを予測する．本研究では，3人のグループによる33のビデオ会話を収集し，各参加者の言語・表情・音声データを取得した．また，相槌的応答をアノテーションし，さらにそれらのBERTによるembedding表現をクラスタリングし，相槌的応答の種類分けを行った．提案手法では，音声，視覚，言語の各モダリティに注意メカニズムを導入した17種類のAUの強度値をフレームごとに生成するデコーダと相槌ラベルの分類器をマルチタスク学習により学習した．
相槌ラベルの予測性能の評価では，カテゴリによって予測性能の偏りが見られた．AU強度予測においては，シングルタスクのモデルよりもマルチタスクモデルの方が損失関数の値(loss)が小さく，より優れたモデルが得られた．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3E2-OS-5b] グループインタラクションとAI(2/2)

[3E2-OS-5b-01] マルチモーダル情報に基づく相槌的応答と表情強度の推定

パスワード