[2Win5-80] Information Extraction from Multi-Page Contract Images Using GIT
Keywords:Vision Language Model, Visual Document Understanding, Information Extraction, Generative Image-to-text Transformer, Multiple images
紙媒体やPDFファイルの効率的な管理において、文書データから特定項目を自動抽出し構造化データへ変換する技術への需要が高まっている。画像や動画のキャプショニング技術であるGenerative Image-to-text Transformer (GIT)は、文書画像からの情報抽出の分野で、従来のOCRベースのアプローチとは異なるEnd-to-Endモデルとしての応用が期待できる。しかし、文書画像として契約書を対象とした場合の情報抽出では、複数ページで構成される文書全体を考慮する必要があり、画像1枚ごとの処理では結果の統合が課題となる。そこで本研究では、契約書に対してGITの動画キャプショニングの枠組みを応用し、動画の各フレームの代わりに契約書の各ページ画像を入力することで、複数ページを一括して処理する手法を提案する。提案手法の有効性を検証するために、画像1枚ごとに処理を行うベースラインモデルとの比較実験を行った。その結果、提案手法が、ベースラインモデルよりも高い性能を示すことを確認した。
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.