13:40 〜 14:00
[1Q3-OS-35-01] 大規模視覚言語モデルチューニングを用いた非構造ドキュメント画像向け情報抽出
キーワード:光学文字認識、大規模言語モデル、情報抽出
本研究では,非構造ドキュメント画像からの情報抽出手法を検討する.従来,光学文字認識(OCR)の結果を大規模言語モデル(Large Language Model, LLM)に入力して情報抽出を行う手法が提案されている.しかし,実際のドキュメント画像は文字情報だけでなく,図や文字色などのレイアウト情報によって表現されているため,OCRによる文字情報のみでは不十分なことがある.そこで近年発展しているLarge Vision-Language Model(LVLM)を用いることで,画像とテキストの両方を統合的に扱い,高精度な情報抽出が期待できる.また,非構造ドキュメントは一般に多様な形式を持つため,few-shotプロンプトだけでなくモデルをファインチューニングする手法も有効と考えられる.そこで,本研究では,非構造ドキュメントの例として飲食店のメニュー画像を対象とし,多数のメニュー画像でLVLMをファインチューニングしてfew-shotプロンプトと比較することで有効性を検証した.さらに,OCR結果を併用することで情報抽出精度が向上するかについても検討した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。