2019年度 人工知能学会全国大会(第33回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » [OS] OS-11 社会的信号処理とAI

[4F3-OS-11b] 社会的信号処理とAI(2)

2019年6月7日(金) 14:00 〜 15:00 F会場 (302B 中会議室)

岡田 将吾(北陸先端科学技術大学院大学)、石井 亮(NTT)

14:20 〜 14:40

[4F3-OS-11b-02] マルチモーダル特徴量を用いた談話セグメントの検出

冨山 健1、〇二瓶 芙巳雄1、高瀬 裕2、中野 有紀子2 (1. 成蹊大学大学院理工学研究科、2. 成蹊大学理工学部)

キーワード:会話セグメンテーション、マルチモーダル、グループ議論

本研究ではグループディスカッションにおける会話のセグメント境界を検出するモデルを提案する.まず,AutoEncoderを使用してマルチモーダルな埋め込み空間を作成し,類似度によるアプローチを適用し会話の境界を検出した.次に,会話境界のアノテーション作業を実施し,言語,音声,そして頭部動作情報のためのユニモーダルCNNモデルを作成した.そしてユニモーダルモデルの出力を連結し,マルチモーダルモデルを作成した.評価実験により,言語情報が最も有用なモダリティであること,さらに音声と頭部動作のモダリティと組み合わせることにより,CNNベースのモデルは会話の境界をより正確に予測することを明らかとした.