画像を含む文書から検索用洞察を生成することによるマルチモーダルRAGシステムの検索精度の改善

福井 琢

09:00 〜 09:20

[4Q1-GS-10-01] 画像を含む文書から検索用洞察を生成することによるマルチモーダルRAGシステムの検索精度の改善

〇福井琢¹、宗像聡¹ (1. 富士通株式会社)

キーワード：人工知能、検索拡張生成、マルチモーダル

業務改善のために社内文書で検索拡張生成（RAG:Retrieval-Augmented Generation）する場合、業務の目的や意図を生成AIが"洞察"し、文書を検索・回答することが望ましい。
しかし、通常のRAGでは質問文と各文書から変換した埋め込みベクトル間の類似度に基づいて検索されるため、"洞察"が明示されない画像を含む文書では検索が困難である。
従来のMulti-Representation-Indexingは、画像から生成したサマリー文を埋め込みベクトルに変換するが、この手法でも"洞察"は含まれない。
そこで本研究では、画像を含む文書から洞察文を生成し検索に活用する手法を新たに提案する。
まず、ページごとに文書を分解し、各ページを画像としてサマリー文を生成した後、洞察文を生成する。
さらに、想定質問回答文を生成し、これらを埋め込みベクトルに変換する。
オープンデータセットを使った実験により、洞察文を含む埋め込みベクトルの方が、従来手法よりも検索精度が向上することを確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4Q1-GS-10] AI応用：分析・解析

[4Q1-GS-10-01] 画像を含む文書から検索用洞察を生成することによるマルチモーダルRAGシステムの検索精度の改善

パスワード