[1Win4-33] Proposal for Extracting Necessary Segments from Long Videos for VQA
Keywords:Video Question Answering
現在,動画質問応答(VQA)に関する研究が活発に行われている.VQA を解く手法は大きく 2 つに分類される.
1 つ目は End-to-End モデルを学習する方法であり,2 つ目は LLM Agent の枠組みで解く方法である.
これら 2 つは長尺の動画に対しては課題が多く,特に必要な情報が断片的に散在する動画を効率的に処理することが困難である.
これに対処するには,VQA を解く際に必要な情報を含む断片を抽出することが重要である.
そこで本研究では,このタスクに取り組むモデルの学習と評価に必要なデータセット構築,その評価方法の提案,ベースラインモデルの構築の 3 つに取り組む.
1 つ目は End-to-End モデルを学習する方法であり,2 つ目は LLM Agent の枠組みで解く方法である.
これら 2 つは長尺の動画に対しては課題が多く,特に必要な情報が断片的に散在する動画を効率的に処理することが困難である.
これに対処するには,VQA を解く際に必要な情報を含む断片を抽出することが重要である.
そこで本研究では,このタスクに取り組むモデルの学習と評価に必要なデータセット構築,その評価方法の提案,ベースラインモデルの構築の 3 つに取り組む.
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.