[4Xin2-52] 調理作業理解のための言語資源付き固定視点映像データセットの構築
キーワード:視覚言語統合、手順書理解、動画解析
手続き的な作業を計算機により理解することで、人の作業体験を向上させることができると考えられている。本研究では特に調理を対象として、このような作業理解に向けた新しいデータセット、および、ベンチマーク課題を提案する。近年の深層学習に支えられた映像理解技術はWebで収集される大量のデータに基づいたものとなる。しかし、Webで公開される映像は人の手による編集を得たものであり、作業観測映像のような未編集なものとの間にはドメインギャップが存在する。近年では比較的大規模な一人称視点映像データセットも公開されているが、一人称カメラにもバッテリーやプライバシー、あるいはUIの複雑さの問題があり、一般社会での応用には課題を残している。一方で、近年のスマートフォンカメラの画角の広角化に伴い、固定視点であれば誰でも簡便にキッチンを視野角に収めた映像が取得できるようになった。そこで本研究ではスマホカメラを一般家庭へ配布することで多数の環境で撮影された調理映像のデータセットを構築する。また、オフラインとオンラインの2つのベンチマーク課題として、動画キャプショニングとオンラインレシピ検索を提案する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。