10:00 〜 10:20
[2Q1-GS-10-04] 多段階時空間推論による映像質問応答
キーワード:質問応答、映像
本研究では、多段階時空間推論による映像質問応答手法を提案する。映像質問応答とは、ある映像とその映像に関する質問が与えられたときに、その質問に対して適切な答えを返す課題である。映像は複数のフレーム画像から構成されるため、これまで画像フレームとテキストの関係を表す時間的構造を考慮した映像質問応答手法が数多く提案され、複数の映像質問応答データセットで良い性能を示してきた。しかし、映像を構成する画像フレームには複数の物体が映ることが多いにもかかわらず、時間と空間の両方の情報を同時に考慮できる高性能な映像質問応答手法はまだ少ない。映像に対して、より複雑かつ正確な推論を行うには、映像の時空間的構造と自然言語で記述された質問を同時に考慮することが不可欠である。そこで、本研究では空間情報を扱う視覚的推論課題で高い性能を示すCompositional Attention Networksを時空間情報を処理できるネットワークへと拡張し、これを映像質問応答に利用する。本手法を、公開されている4つの映像質問応答データセットに適用したところ、従来の手法と比較して全てのデータセットで最も良い性能を示すことがわかった。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。