12:40 〜 13:00
[4R2-OS-22a-03] 会議発話間の関係性推定に向けた効率的な音声・動画情報の活用の検討
[[オンライン]]
キーワード:マルチモーダル、グループインタラクション、議論マイニング
会議において相手の応答発話が自分の発言を支持したものであるかを知ることは、会議を円滑に進める上で重要である。 本研究では、発話テキスト・音声・話者動画のマルチモーダル情報を用いて、発話と応答のペアについて、応答が発話を支持しているかどうかを推定することを検討する。 マルチモーダル情報を考慮する方法として、異なるモーダルの特徴量を系列方向に連結して一つのTransformer Encoderに入力し各モーダルの関係性を捉える方法があるが、発話テキストに比べて音声・動画は系列長が長いため全ての系列情報を考慮することが困難であるという課題がある。 そこで、attention機構に基づくリサンプリングモジュールを音声・動画系列にそれぞれ適用し、短い系列に多くの情報を圧縮する手法について検討する。会議コーパスAMIを用いた実験では、提案手法はテキストのみのモデルと同等の精度を達成した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。