GITを活用した複数ページ契約書画像からの情報抽出

山内 敏嗣

[2Win5-80] GITを活用した複数ページ契約書画像からの情報抽出

〇山内敏嗣¹ (1.Sansan株式会社)

キーワード：Vision Language Model、Visual Document Understanding、Information Extraction、Generative Image-to-text Transformer、Multiple images

紙媒体やPDFファイルの効率的な管理において、文書データから特定項目を自動抽出し構造化データへ変換する技術への需要が高まっている。画像や動画のキャプショニング技術であるGenerative Image-to-text Transformer (GIT)は、文書画像からの情報抽出の分野で、従来のOCRベースのアプローチとは異なるEnd-to-Endモデルとしての応用が期待できる。しかし、文書画像として契約書を対象とした場合の情報抽出では、複数ページで構成される文書全体を考慮する必要があり、画像1枚ごとの処理では結果の統合が課題となる。そこで本研究では、契約書に対してGITの動画キャプショニングの枠組みを応用し、動画の各フレームの代わりに契約書の各ページ画像を入力することで、複数ページを一括して処理する手法を提案する。提案手法の有効性を検証するために、画像1枚ごとに処理を行うベースラインモデルとの比較実験を行った。その結果、提案手法が、ベースラインモデルよりも高い性能を示すことを確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2Win5] ポスターセッション2

[2Win5-80] GITを活用した複数ページ契約書画像からの情報抽出

パスワード