09:00 〜 09:20
[4I1-GS-7b-01] マルチモーダル推論のための動画アクションデータセットの構築
キーワード:マルチモーダル推論、動画像テキスト間推論、動画データセット
本論文では、動画像に写る人物のアクション情報を(人物,動作,対象)の三つ組の形式で付与した、動画像テキスト間推論のためのデータセットを提案する。動画に対して157種類のアクション情報を付与した大規模データセットCharadesから200件の動画をランダムに選択し、1つあたり30秒程度の動画に対して約28件のアクション情報を人手でアノテーションする。アノテーション作業は2名で行い、第三者によるアノテーション結果の統合・確認作業を行うことで、アクション情報を多様な表現で記述でき、かつ質の高いデータセットの構築を試みた。今回作成したデータセットは、動画200本に対して総アクション数が5554となり、アクションラベルは1942種類となった。アクションラベルには既存のデータセットや静止画には現れないような「食べ続ける」「閉めようとする」といった動画特有の様々な表現が含まれている。本データセットは、否定や数量といった意味的に複雑な文と動画間の推論システムの評価や動画のシーン検索への応用が期待される。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。