2022年度 人工知能学会全国大会(第36回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[1O5-GS-7] 画像音声メディア処理:分類・生成

2022年6月14日(火) 16:20 〜 18:00 O会場 (Room 510)

座長:吉田 周平(NEC)[遠隔]

17:40 〜 18:00

[1O5-GS-7-05] Space-Time Attentionを用いた動画理解機構に基づくEnd-to-Endマルチモーダル対話応答生成

〇山﨑 善啓1、折橋 翔太1、増村 亮1、内田 美尋1、高島 瑛彦1 (1. 日本電信電話株式会社, NTTコンピュータ&データサイエンス研究所)

[[オンライン]]

キーワード:マルチモーダル対話、動画理解、End-to-End応答生成

マルチモーダル対話システムの研究タスクとして、Audio Visual Scene-aware Dialog (AVSD)と呼ばれる与えられた音響・動画像情報に関する質問応答を行うタスクが挙げられる。AVSDに関する従来のモデルの多くは、動画像内容の理解のためにConvolutional Neural Network (CNN)に基づく動画像表現を用いて応答を生成している。CNNは時空間方向に局所的な特徴抽出を行う傾向にあるといわれている一方で、時間的に広い依存性や空間的に大域的な特徴もAVSDのモデルには必要であると考えられる。本研究では、時空間方向に大域的な表現を獲得しやすいといわれているTransformerに基づく動画像表現を用いたニューラル応答生成モデルを提案する。応答性能を評価した結果、本手法はCNNに基づく動画像表現を用いた従来法に比べて、より高い客観評価値が得られることを示した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード