実験室RAGに向けた装置マニュアルの構造解析モデル及びOCRとVLMを統合したPDFのマークダウン化パイプラインの開発

野中 敬翔

15:00 〜 15:20

[4A3-GS-10-04] 実験室RAGに向けた装置マニュアルの構造解析モデル及びOCRとVLMを統合したPDFのマークダウン化パイプラインの開発

〇野中敬翔¹、横井直人^2,3、春山純志^1,4、齊藤英治^2,3,5,6 (1. 青山学院大学大学院理工学研究科、2. 東京大学大学院工学系研究科、3. 東京大学Beyond AI研究推進機構、4. 東京大学生産技術研究所、5. 東北大学材料科学高等研究所、6. 理化学研究所創発物性科学研究センター)

キーワード：文書レイアウト解析、PDF変換、ラボラトリーオートメーション

ラボラトリーオートメーションや実験室RAG（Retrieval-Augmented Generation）の構築では、実験装置マニュアルなどのPDFをLLMで扱いやすい形式へ変換することが重要である。しかし、深層学習を用いた文書構造解析サービスでは、装置のUI画面やボタン画像等の人間に最適化された画面をそのまま読み取ってしまい、表やテキストと誤認識し、PDFのバイナリ解析でもPDFの多様さゆえに正確に扱いきれないことが多い。そこで本研究では、DocSynth300Kで事前学習したDocLayout-YOLOを、35,535件の家電・電子機器操作マニュアルHTMLから生成したPDFとアノテーションを用いてFine Tuningを行い、UI画像やボタン画像を含むケースでも高精度に検出できるモデルの開発を行った。また、OCRやVLMと併用して、テキスト・画像・構造を取得してMarkdown形式へ変換を行うPDF解析パイプラインを提案する。本成果により、マニュアル整備や参照が効率化されるだけでなく、多様な分野のドキュメント処理にも有用な技術基盤を提供できると期待される。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4A3-GS-10] AI応用：大規模言語モデル

[4A3-GS-10-04] 実験室RAGに向けた装置マニュアルの構造解析モデル及びOCRとVLMを統合したPDFのマークダウン化パイプラインの開発

パスワード