[2Yin5-05] マルチストリーム3次元畳み込みネットワークによる外観・動作・音声情報を統合した映像質問応答
キーワード:映像質問応答
本研究では,外観・動作・音声情報を同時に用いて,映像に対する質問に回答するオープンエンド型のマルチモーダル映像質問応答手法を提案する.音声情報は映像コンテンツを理解するために視覚情報と合わせて有用だと考えられるものの,既存手法の多くは動作と外観情報を利用しており,音声情報は利用されていない.また,外観・動作・音声情報を用いた一部の先行研究では,詳細なマルチモーダルデータを効果的に統合することができなかったため,あまり良い結果が得られていなかった.これらの問題を解決するため,我々はテキスト情報で条件付けしたマルチストリーム3次元畳み込みネットワーク(3D ConvNets)手法を提案する。我々のモデルでは,複数の3D ConvNets上で微細なマルチモーダル情報を表現し,質問の意味内容で条件付した時空間情報を用いて解答を予測する.公開されている音声トラック付きの映像質問応答データセットMSRVTT-QAとActivityNet-QAを用いた実験結果から,我々の手法は,動作・外観・音声情報を効果的に組み合わせ,最先端の手法よりも優れた結果を示すことができた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。