2020年度 人工知能学会全国大会(第34回)

講演情報

一般セッション

一般セッション » J-9 自然言語処理・情報検索

[2D1-GS-9] 自然言語処理・情報検索: 支援技術

2020年6月10日(水) 09:00 〜 10:40 D会場 (jsai2020online-4)

座長:貞光九月(フューチャー株式会社)

10:20 〜 10:40

[2D1-GS-9-05] News Image Caption Generation

〇Zhishen Yang1, Naoaki Okazaki1 (1. Tokyo Institute of Technology)

キーワード:vision and language, image captioning, multimodality

Vision and language as a vibrant multimodal machine learning research field aim to create models that serve comprehension of information across vision and language modalities. In this work, we utilized the multimodal Transformer model with joint text-vision representation to approach one of the vision and language tasks: news image caption generation. The multimodal Transformer model leverages context from the article with consideration of the scene in the associated image to generate caption. The experimental result demonstrated the multimodal Transformer significantly improved the quality of generated news image caption.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード