複数粒度のマルチモダル情報を用いたテキスト付き画像の説明文生成

楊 巍

16:10 〜 16:30

[2G5-OS-21e-03] 複数粒度のマルチモダル情報を用いたテキスト付き画像の説明文生成

〇楊巍¹、植田有咲¹、杉浦孔明¹ (1. 慶應義塾大学)

キーワード：マルチモーダル説明文生成、テキスト付き画像説明文生成、マルチモーダル注意

画像、動画など視覚的に示された物を理解, 例えば, 実世界の画像を対象として説明文を生成する技術の実現は, 人工知能分野における重要な課題の一つである. 一般的な画像説明文生成に比べ, テキスト付き画像の説明文生成は，画像全体・画像中の物体・テキストを統合する点において挑戦的課題である. 本研究では Image captioning with reading comprehensionタスクを扱う. 提案手法では, 画像中のテキスト情報に関して文字から単語まで複数粒度かつマルチモーダル情報として統合する．また, 画像全体の大域的な視覚情報, マルチモーダルOCR特徴, 画像中の物体群, の三者を扱うマルチモーダル注意機構を導入する．提案手法はTextCapsデータセットにおいて, 既存手法を上回る結果を得た.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2G5-OS-21e] 世界モデルと知能

[2G5-OS-21e-03] 複数粒度のマルチモダル情報を用いたテキスト付き画像の説明文生成

パスワード