マルチモーダル推論のための動画アクションデータセットの構築

横関 茉衣

09:00 〜 09:20

[4I1-GS-7b-01] マルチモーダル推論のための動画アクションデータセットの構築

〇横関茉衣¹、村上夏輝¹、鈴木莉子¹、谷中瞳^2,1、峯島宏次³、戸次大介¹ (1. お茶の水女子大学、2. 理化学研究所、3. 慶應義塾大学)

キーワード：マルチモーダル推論、動画像テキスト間推論、動画データセット

本論文では、動画像に写る人物のアクション情報を（人物，動作，対象）の三つ組の形式で付与した、動画像テキスト間推論のためのデータセットを提案する。動画に対して157種類のアクション情報を付与した大規模データセットCharadesから200件の動画をランダムに選択し、1つあたり30秒程度の動画に対して約28件のアクション情報を人手でアノテーションする。アノテーション作業は2名で行い、第三者によるアノテーション結果の統合・確認作業を行うことで、アクション情報を多様な表現で記述でき、かつ質の高いデータセットの構築を試みた。今回作成したデータセットは、動画200本に対して総アクション数が5554となり、アクションラベルは1942種類となった。アクションラベルには既存のデータセットや静止画には現れないような「食べ続ける」「閉めようとする」といった動画特有の様々な表現が含まれている。本データセットは、否定や数量といった意味的に複雑な文と動画間の推論システムの評価や動画のシーン検索への応用が期待される。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4I1-GS-7b] 画像音声メディア処理：マルチモーダル処理

[4I1-GS-7b-01] マルチモーダル推論のための動画アクションデータセットの構築

パスワード