18:00 〜 18:20
[3A6-GS-10-02] 生命保険業務データによるマルチモーダルLLMの性能評価
キーワード:産業応用
生命保険会社の照会対応業務へマルチモーダルLLMを適用するにあたり、業務データを用いたベンチマークを構築し複数モデルの実性能を比較評価した。LLMに図表を含む社内のマニュアルや基準書を参照させたうえで回答生成させることを想定し、Claude 3.5 Sonnet、Gemini 1.5 Pro、GPT-4oの3モデルを対象に、ドキュメントQA、画像内容のテキスト化タスクを中心に評価を行った。結果として、ドキュメントQAではClaude 3.5 Sonnetが最高精度を示し、画像内容のテキスト化タスクではGemini 1.5 Proが最高精度を示した。また社内ドキュメントに含まれるLLMが認識困難な図表の特徴を確認した。これらの評価を通じて、業務データを用いたベンチマークによって、公開されている汎用的なベンチマークによる評価とは異なる結果を得られることを確認した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。