2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-35 非構造データからの情報抽出

[1Q3-OS-35] 非構造データからの情報抽出

2025年5月27日(火) 13:40 〜 15:20 Q会場 (会議室804)

オーガナイザ:中田 百科(リクルート),村田 達郎(リクルート),山下 雄大(Megagon Labs)

14:00 〜 14:20

[1Q3-OS-35-02] 大規模言語モデルを用いたマイソクPDFからの情報抽出の改善

〇樋口 樂飛1、叶内 晨2,3、齊藤 佑太郎3、松本 健太郎3、岩成 達哉3 (1. 香川大学、2. NLPeanuts合同会社、3. 株式会社estie)

キーワード:情報抽出、データ構造化、大規模言語モデル

本研究では、不動産業界で物件情報の流通に使用されるPDFデータからの情報抽出の精度向上を目指す。先行研究では、OCRを用いてテキスト情報を抽出した後、大規模言語モデル(LLM)を用いる2ステップの手法により、高精度に物件情報を抽出可能なことが示されている。本研究では、PDFを直接入力可能な商用マルチモーダルLLMを用いた情報抽出を検証する。実験では、OCRを用いる手法、PDFを画像に変換してLLMに入力する手法、PDFを直接商用LLMに入力する手法の精度を比較し、その出力結果を分析する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード