動画キャプション生成を用いた動作認識データセットの拡張

後藤 颯志

10:20 〜 10:40

[4I1-GS-11-05] 動画キャプション生成を用いた動作認識データセットの拡張

〇後藤颯志^1,2、チャクラボルティシュデシナ¹、森田武史^1,2、吉川友也³、山本泰智^2,4、江上周作²、鵜飼孝典^2,5、福田賢一郎² (1. 青山学院大学、2. 産業技術総合研究所、3. 千葉工業大学、4. ROIS-DS ライフサイエンス統合データベースセンター、5. 富士通株式会社)

キーワード：人間動作認識、メタビデオデータセット、動作ラベル統合、動画キャプション生成、大規模視覚言語モデル

既存の動作認識データセットは，各動画に対して代表的な一つの動作ラベルが付与されることが多く，動画内に含まれる複数の動作に対応する動作ラベルが網羅的に付与されていない．各動画に対して複数の動作ラベルを付与できれば，既存の動作認識データセットを拡張し，動作認識器の精度向上に活用できる可能性がある．本研究では，大規模視覚言語モデル（LVLM）に基づく動画キャプション生成を用いた動作認識データセットの拡張を目的とする．提案手法は，まずLVLMを用いて対象動画からキャプションを生成する．次に，大規模言語モデルを用いて，生成されたキャプションの内容に即した動作ラベルを，メタ動画データセットMetaVDに含まれる全動作ラベルから抽出し，対象動画に付与する．さらに，抽出された動作ラベルとMetaVD上でequal関係にある動作ラベルも抽出し，対象動画に付与する．評価実験では，HMDB51データセットを対象として，提案手法により対象動画に付与された動作ラベルについて，HMDB51の動作ラベルの復元率を算出する．また，提案手法により付与された動作ラベルの妥当性を人手により評価し，提案手法の有効性を示す．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4I1-GS-11] AIと社会：

[4I1-GS-11-05] 動画キャプション生成を用いた動作認識データセットの拡張

パスワード