日常タスクにおける将来イベントのクロスモーダル説明文生成

神原 元就

09:20 〜 09:40

[2O1-GS-7-02] 日常タスクにおける将来イベントのクロスモーダル説明文生成

〇神原元就¹、杉浦孔明¹ (1. 慶應義塾大学)

キーワード：動画キャプション生成、future captioning、クロスモーダル、Relational Self-Attention

ロボットと障害物の衝突を予測し危険性を言語化してユーザにフィードバックできれば安全性と説明性を向上できる．一方で，未来予測には不確実性が含まれるので、正確な説明文生成は難しい．実際に，既存週報では実世界データにおいて生成文の品質が低いため，実用化が難しい．そこで本論文ではfuture captioningのための新しい手法を提案した．提案手法の新規性はRelational Self-Attention（RSA，[Kim+ NeurIPS21]）を注意機構として用いたRSA Encoderの導入，及びaction lossの導入である．本論文ではBERT，METOR，ROUGE，CIDErの4つの評価尺度を用いて評価した．実験では各データセットにおいて，主要尺度で提案手法が既存手法を上回る性能を示した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2O1-GS-7] 画像音声メディア処理：生成

[2O1-GS-7-02] 日常タスクにおける将来イベントのクロスモーダル説明文生成

パスワード