非構造ドキュメント画像向けOCRテキスト解析のための進化計算に基づく自動プロンプトエンジニアリング

江上 尚志

14:00 〜 14:20

[4N3-GS-6-01] 非構造ドキュメント画像向けOCRテキスト解析のための進化計算に基づく自動プロンプトエンジニアリング

〇江上尚志¹、中田百科¹、福地鈴佳²、久保田茉莉花²、薬師寺政和¹ (1. 株式会社リクルート、2. 株式会社ビーンズラボ)

キーワード：光学文字認識、大規模言語モデル、関係抽出、プロンプトエンジニアリング、進化計算

Optical Character Recognition（OCR）は画像から文字抽出する技術であり，これによりドキュメント画像を元にした掲載サイトへの入稿工数を大幅に削減できると期待される．しかし，入稿では文字抽出だけでなく，キーとバリューの関係を抽出する必要がある．表構造が存在する場合これは容易であるが，非構造ドキュメントは多様な形式を有するため高精度な抽出は難しい．近年，大規模言語モデル（Large Language Model, LLM）の進展により，多様な文章の理解が可能になってきた．さらにLLMはタスクに応じた自動プロンプトエンジニアリングにより精度が向上するとされており，OCR結果に適用することで関係抽出の高精度化が期待される．しかし，非構造ドキュメントの最適化には十分なデータを必要とし，LLMの推論回数増加に伴い計算コストの課題が生じる．そこで本研究では，進化計算に基づく自動プロンプトエンジニアリングにミニバッチ法を適用し，少ない推論回数でプロンプトを最適化する手法を開発した．得られたプロンプトによりOCRデータから高精度に関係抽出できることを示した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4N3-GS-6] 言語メディア処理：

[4N3-GS-6-01] 非構造ドキュメント画像向けOCRテキスト解析のための進化計算に基づく自動プロンプトエンジニアリング

パスワード