15:00 〜 15:20
[4A3-GS-10-04] 実験室RAGに向けた装置マニュアルの構造解析モデル及びOCRとVLMを統合したPDFのマークダウン化パイプラインの開発
キーワード:文書レイアウト解析、PDF変換、ラボラトリーオートメーション
ラボラトリーオートメーションや実験室RAG(Retrieval-Augmented Generation)の構築では、実験装置マニュアルなどのPDFをLLMで扱いやすい形式へ変換することが重要である。しかし、深層学習を用いた文書構造解析サービスでは、装置のUI画面やボタン画像等の人間に最適化された画面をそのまま読み取ってしまい、表やテキストと誤認識し、PDFのバイナリ解析でもPDFの多様さゆえに正確に扱いきれないことが多い。そこで本研究では、DocSynth300Kで事前学習したDocLayout-YOLOを、35,535件の家電・電子機器操作マニュアルHTMLから生成したPDFとアノテーションを用いてFine Tuningを行い、UI画像やボタン画像を含むケースでも高精度に検出できるモデルの開発を行った。また、OCRやVLMと併用して、テキスト・画像・構造を取得してMarkdown形式へ変換を行うPDF解析パイプラインを提案する。本成果により、マニュアル整備や参照が効率化されるだけでなく、多様な分野のドキュメント処理にも有用な技術基盤を提供できると期待される。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。