[1Win4-33] VQA のための長尺動画からの必要断片抽出タスクの提案
キーワード:動画質問応答
現在,動画質問応答(VQA)に関する研究が活発に行われている.VQA を解く手法は大きく 2 つに分類される.
1 つ目は End-to-End モデルを学習する方法であり,2 つ目は LLM Agent の枠組みで解く方法である.
これら 2 つは長尺の動画に対しては課題が多く,特に必要な情報が断片的に散在する動画を効率的に処理することが困難である.
これに対処するには,VQA を解く際に必要な情報を含む断片を抽出することが重要である.
そこで本研究では,このタスクに取り組むモデルの学習と評価に必要なデータセット構築,その評価方法の提案,ベースラインモデルの構築の 3 つに取り組む.
1 つ目は End-to-End モデルを学習する方法であり,2 つ目は LLM Agent の枠組みで解く方法である.
これら 2 つは長尺の動画に対しては課題が多く,特に必要な情報が断片的に散在する動画を効率的に処理することが困難である.
これに対処するには,VQA を解く際に必要な情報を含む断片を抽出することが重要である.
そこで本研究では,このタスクに取り組むモデルの学習と評価に必要なデータセット構築,その評価方法の提案,ベースラインモデルの構築の 3 つに取り組む.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。