14:20 〜 14:40
[4F3-OS-11b-02] マルチモーダル特徴量を用いた談話セグメントの検出
キーワード:会話セグメンテーション、マルチモーダル、グループ議論
本研究ではグループディスカッションにおける会話のセグメント境界を検出するモデルを提案する.まず,AutoEncoderを使用してマルチモーダルな埋め込み空間を作成し,類似度によるアプローチを適用し会話の境界を検出した.次に,会話境界のアノテーション作業を実施し,言語,音声,そして頭部動作情報のためのユニモーダルCNNモデルを作成した.そしてユニモーダルモデルの出力を連結し,マルチモーダルモデルを作成した.評価実験により,言語情報が最も有用なモダリティであること,さらに音声と頭部動作のモダリティと組み合わせることにより,CNNベースのモデルは会話の境界をより正確に予測することを明らかとした.