2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[4N3-GS-6] 言語メディア処理:

2024年5月31日(金) 14:00 〜 15:40 N会場 (54会議室)

座長:田中涼太(NTT人間情報研究所)

14:00 〜 14:20

[4N3-GS-6-01] 非構造ドキュメント画像向けOCRテキスト解析のための進化計算に基づく自動プロンプトエンジニアリング

〇江上 尚志1、中田 百科1、福地 鈴佳2、久保田 茉莉花2、薬師寺 政和1 (1. 株式会社リクルート、2. 株式会社ビーンズラボ)

キーワード:光学文字認識、大規模言語モデル、関係抽出、プロンプトエンジニアリング、進化計算

Optical Character Recognition(OCR)は画像から文字抽出する技術であり,これによりドキュメント画像を元にした掲載サイトへの入稿工数を大幅に削減できると期待される.しかし,入稿では文字抽出だけでなく,キーとバリューの関係を抽出する必要がある.表構造が存在する場合これは容易であるが,非構造ドキュメントは多様な形式を有するため高精度な抽出は難しい.近年,大規模言語モデル(Large Language Model, LLM)の進展により,多様な文章の理解が可能になってきた.さらにLLMはタスクに応じた自動プロンプトエンジニアリングにより精度が向上するとされており,OCR結果に適用することで関係抽出の高精度化が期待される.しかし,非構造ドキュメントの最適化には十分なデータを必要とし,LLMの推論回数増加に伴い計算コストの課題が生じる.そこで本研究では,進化計算に基づく自動プロンプトエンジニアリングにミニバッチ法を適用し,少ない推論回数でプロンプトを最適化する手法を開発した.得られたプロンプトによりOCRデータから高精度に関係抽出できることを示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード