2020年度 人工知能学会全国大会(第34回)

講演情報

一般セッション

一般セッション » J-9 自然言語処理・情報検索

[3Q5-GS-9] 自然言語処理・情報検索: 意味類似性

2020年6月11日(木) 15:40 〜 17:00 Q会場 (jsai2020online-17)

座長:秋元康佑(NEC)

15:40 〜 16:00

[3Q5-GS-9-01] マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定

鈴木 莉子1、〇小西 幹人2、池田 順哉3、林 大地4、深井 颯5、菅原 優6、町井 湧介7、山浦 佑介7 (1. お茶の水女子大学、2. 大阪大学、3. 福井大学、4. 同志社大学、5. 東京工業大学、6. 北海道大学、7. 富士ゼロックス株式会社)

キーワード:マルチモーダル、深層学習、自然言語処理、画像認識、クロスアテンション

ドキュメントに含まれる画像はテキストの内容理解を助ける役割を持つが、画像とテキストの間に整合性が無い場合は、読み手の理解を妨げる恐れがある。ドキュメント作成時の人的ミスやデータの改ざん等により、画像に対してテキストの意味が部分的に変わってしまう場合は、作成者が矛盾点に気付きにくいため、意図せずドキュメントの品質を落としてしまう可能性もある。本研究では、マルチモーダル深層学習を用いて、画像とテキストの整合性判定を行い、画像の物体領域とテキストの単語の関連性を学習するCross Attentionにより、画像とテキストの矛盾点を可視化するモデルを構築する。画像とキャプションが対になったデータセットを元に、キャプションの意味を部分的に変更したデータセットを作成し、提案モデルの有効性を検証すると共に、Cross Attentionにより可視化される画像とテキストの対応関係について考察する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード