[3Yin2-31] 一般ドメイン動画実況生成
キーワード:自然言語処理、マルチモーダル
本論文では特定のドメインに依らない動画を入力し,その動画の実況を生成するタスクを扱う.
実況では,動画内のイベントについて実況者がリアルタイムに客観的な說明を加えたり,主観的なコメントを述べたりする.
このような実況を自動生成する研究は従来,スポーツ等の特定の分野を対象に行われており,分野に特化した情報を活用し生成する手法が一般的である.
本研究で扱う一般ドメインの動画に対する実況生成では,ドメイン固有の素性を用いることができず,難しい設定となる.
様々なドメインから収集した動画に対しクラウドソーシングを用い,実況を付与したデータセットをまず作成し,映像およびテキストを考慮する実況生成モデルを学習する.
実験より,映像および文脈テキストを考慮するマルチモーダルなTransformerが良い性能を示すことが分かった.
実況では,動画内のイベントについて実況者がリアルタイムに客観的な說明を加えたり,主観的なコメントを述べたりする.
このような実況を自動生成する研究は従来,スポーツ等の特定の分野を対象に行われており,分野に特化した情報を活用し生成する手法が一般的である.
本研究で扱う一般ドメインの動画に対する実況生成では,ドメイン固有の素性を用いることができず,難しい設定となる.
様々なドメインから収集した動画に対しクラウドソーシングを用い,実況を付与したデータセットをまず作成し,映像およびテキストを考慮する実況生成モデルを学習する.
実験より,映像および文脈テキストを考慮するマルチモーダルなTransformerが良い性能を示すことが分かった.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。