[3Xin4-19] VQAデータセットを活用した文書画像からのオープン情報抽出の検討
キーワード:情報抽出、オープン情報抽出、自然言語処理
OpenIEは、テキストデータをドメインによらない手法で構造化し、情報を3項関係(subject; relation; object)として抽出する一般的なパラダイムである。テキストベースのOpenIEに関する研究では多くの発展があったが、これまでのところ、文書画像に対するOpenIE手法やOpenIEデータセットを提案した研究は存在しない。本論文では、質問生成、質問応答、3項関係抽出の三つのモジュールから構成される、パイプラインベースの文書画像向けOpenIEシステムを提案する。提案手法では、OpenIEデータセットを用いず、VQAデータセットのみを用いて学習を行う。DocVQAとInfographicVQAデータセットを用いた実験の結果、提案手法はテキストベースのOpenIEシステムを凌駕する性能を持つことが実証された。さらに、提案手法における質問応答モジュールの重要性を明らかにした。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。