Vision-and-Language Modeling for Document Understanding

Kyosuke Nishida

[2-A-3-02] Vision-and-Language Modeling for Document Understanding

*Kyosuke Nishida¹ (1. NTT Human Informatics Laboratories)

Artificial Intelligence, Vision-and-Language, Document Understanding

BERTやGPT-3に代表される、巨大なニューラルネットワークを大量のテキストで自己教師あり学習した汎用言語モデルの登場により、一部の自然言語理解のベンチマークタスクでは人工知能が人間のスコアを凌駕するまでに成長した。既に、言語モデルをベースとした技術はテキストの検索や要約など多くのタスクで実用化が進んでいる。その一方で、従来の言語モデルはテキスト情報しか扱わないため、グラフや写真、文字のレイアウトなど文書中の視覚的な情報を理解することはできない。視覚と言語を結びつけて理解することは、文書を知識源として人と質問応答や対話を行う知的エージェントの実現には必要不可欠と言える。近年では、自然言語処理分野におけるモデル構造や学習アプローチが、Vision-and-Languageと呼ばれる視覚情報と言語情報を組み合わせた課題解決を行う研究分野にも導入され大きな成果を挙げた。本講演では、深層学習による自然言語処理とVision-and-Language分野への派生、そして文書理解への応用について最新の動向を紹介する。そして、我々によるWebページのスクリーンショット画像を対象とした文書画像に対する質問応答技術と、国際コンペティションであるDocVQA Challenge 2021に参加しRunner-upとして受賞された取組について紹介する。

The 42nd Joint Conference on Medical Informatics

[2-A-3-02] Vision-and-Language Modeling for Document Understanding