2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[4A1-GS-6] 言語メディア処理:

2024年5月31日(金) 09:00 〜 10:40 A会場 (大ホール)

座長:田中 駿(JX通信社)

09:00 〜 09:20

[4A1-GS-6-01] 大規模言語モデルチューニングによる非構造ドキュメント画像向けOCRテキスト解析

〇中田 百科1、江上 尚志1、福地 鈴佳2、久保田 茉莉花2、薬師寺 政和1 (1. 株式会社リクルート、2. 株式会社ビーンズラボ)

[[オンライン]]

キーワード:光学文字認識、大規模言語モデル、関係抽出

光学文字認識(OCR)は画像から文字を認識する技術である.深層学習の登場によって継続的に精度が向上しており,書類の電子化等の効率化に貢献できると期待されている.例えば店舗情報を掲載サイトに手動で入稿するには長期の工数が必要だが,店舗が持つドキュメント画像にOCRを適用することで作業を自動化できる.ただし,これらのタスクの多くはOCR結果の羅列だけでは不十分であり,キーとバリューの関係を抽出し整理した上でユーザに提示することが望ましい.表構造が存在する場合は位置情報に基づいて関係抽出できるが,現実の多くは非構造化データのテキストで構成されており,文脈を踏まえて関係を特定する必要がある.こういった画像では品質を確保することが難しく,OCR実用化の障壁となっている.一方で,近年大規模言語モデル(LLM)が盛んに研究されており,複雑な文章においても文脈理解の精度が飛躍的に向上してきている.そこで本研究ではOCR結果にLLMを適用し関係抽出することにした.表構造の少ないドキュメント画像向けに特化した後処理やLLMのファインチューニングによって,高精度に関係抽出する手法を考案し有効性を検証した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード