2022年度 人工知能学会全国大会(第36回)

講演情報

インタラクティブセッション

一般セッション » インタラクティブセッション

[3Yin2] インタラクティブセッション1

2022年6月16日(木) 11:30 〜 13:10 Y会場 (Event Hall)

[3Yin2-31] 一般ドメイン動画実況生成

〇濵園 侑美1,3、Marrese-Taylor Edison3、石垣 達也3、宮尾 祐介2,3、小林 一郎1,3、高村 大也3 (1.お茶の水女子大学、2.東京大学、3.産業技術総合研究所)

キーワード:自然言語処理、マルチモーダル

本論文では特定のドメインに依らない動画を入力し,その動画の実況を生成するタスクを扱う.
実況では,動画内のイベントについて実況者がリアルタイムに客観的な說明を加えたり,主観的なコメントを述べたりする.
このような実況を自動生成する研究は従来,スポーツ等の特定の分野を対象に行われており,分野に特化した情報を活用し生成する手法が一般的である.
本研究で扱う一般ドメインの動画に対する実況生成では,ドメイン固有の素性を用いることができず,難しい設定となる.
様々なドメインから収集した動画に対しクラウドソーシングを用い,実況を付与したデータセットをまず作成し,映像およびテキストを考慮する実況生成モデルを学習する.
実験より,映像および文脈テキストを考慮するマルチモーダルなTransformerが良い性能を示すことが分かった.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード