大規模言語モデルを活用したFew-shot ビデオ要約

杉原 朋弥

09:40 〜 10:00

[3N1-GS-7-03] 大規模言語モデルを活用したFew-shot ビデオ要約

〇杉原朋弥¹、増田俊太郎¹、肖玲¹、山崎俊彦¹ (1. 東京大学)

キーワード：ビデオ要約、大規模言語モデル、少数事例推論

既存の教師あり学習によるビデオ要約手法では、複数のアノテーターが作成した正解ラベルを統合してモデルを学習させる。しかし、一つのビデオに対して複数のラベルが付与されることがノイズとなり、モデルの性能を損なう可能性がある。また、ベンチマークデータセットの規模が限られているため、学習モデルが特定のカテゴリに過剰適合してしまう。そこで本研究では、大規模言語モデルが持つ、プロンプトに少数のタスク例を与えるだけでタスクに適応することができるFew-shot推論能力に着目する。この能力を活用し、限られたラベル付きデータを用いて、アノテーター固有の要約傾向を学習する、新しいFew-shotビデオ要約を提案する。具体的には、事前学習済みの画像キャプショニングモデルを用いてビデオをテキスト化し、そのキャプションと対応するラベルのペアをFew-shotプロンプトに組み込む。そして、大規模言語モデルがパラメーターの更新なしにフレームレベルのスコアリングを行う。SumMeとTVSumを用いた実験により、提案手法がランダム手法を上回るF-scoreを達成し、Few-shotビデオ要約における有効性を示した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3N1-GS-7] 画像音声メディア処理：

[3N1-GS-7-03] 大規模言語モデルを活用したFew-shot ビデオ要約

パスワード