2022年度 人工知能学会全国大会(第36回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[2O1-GS-7] 画像音声メディア処理:生成

2022年6月15日(水) 09:00 〜 10:40 O会場 (Room 510)

座長:栗田 修平(理化学研究所)[現地]

09:20 〜 09:40

[2O1-GS-7-02] 日常タスクにおける将来イベントのクロスモーダル説明文生成

〇神原 元就1、杉浦 孔明1 (1. 慶應義塾大学)

キーワード:動画キャプション生成、future captioning、クロスモーダル、Relational Self-Attention

ロボットと障害物の衝突を予測し危険性を言語化してユーザにフィードバックできれば安全性と説明性を向上できる.一方で,未来予測には不確実性が含まれるので、正確な説明文生成は難しい.実際に,既存週報では実世界データにおいて生成文の品質が低いため,実用化が難しい.そこで本論文ではfuture captioningのための新しい手法を提案した.提案手法の新規性はRelational Self-Attention(RSA,[Kim+ NeurIPS21])を注意機構として用いたRSA Encoderの導入,及びaction lossの導入である.本論文ではBERT,METOR,ROUGE,CIDErの4つの評価尺度を用いて評価した.実験では各データセットにおいて,主要尺度で提案手法が既存手法を上回る性能を示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード