VQAデータセットを活用した文書画像からのオープン情報抽出の検討

山口 篤季; 十河 泰弘

[3Xin4-19] VQAデータセットを活用した文書画像からのオープン情報抽出の検討

〇山口篤季¹、十河泰弘¹ (1.株式会社日立製作所)

キーワード：情報抽出、オープン情報抽出、自然言語処理

OpenIEは、テキストデータをドメインによらない手法で構造化し、情報を3項関係（subject; relation; object）として抽出する一般的なパラダイムである。テキストベースのOpenIEに関する研究では多くの発展があったが、これまでのところ、文書画像に対するOpenIE手法やOpenIEデータセットを提案した研究は存在しない。本論文では、質問生成、質問応答、3項関係抽出の三つのモジュールから構成される、パイプラインベースの文書画像向けOpenIEシステムを提案する。提案手法では、OpenIEデータセットを用いず、VQAデータセットのみを用いて学習を行う。DocVQAとInfographicVQAデータセットを用いた実験の結果、提案手法はテキストベースのOpenIEシステムを凌駕する性能を持つことが実証された。さらに、提案手法における質問応答モジュールの重要性を明らかにした。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3Xin4] ポスターセッション1

[3Xin4-19] VQAデータセットを活用した文書画像からのオープン情報抽出の検討

パスワード