LLMを用いた業務要件に基づくLLM自動評価方式

西川 和寿; 加藤 正恭; 鹿糠 秀行

[1Win4-101] LLMを用いた業務要件に基づくLLM自動評価方式

〇西川和寿¹、加藤正恭¹、鹿糠秀行¹ (1.株式会社日立製作所)

キーワード：大規模言語モデル評価、LLM-as-a-Judge、評価観点、システム開発

企業におけるシステム開発業務などの効率化にLarge Language Model(LLM)の適用が期待されている。システム開発業務へLLMを適用する際には、LLMの性能がシステム開発業務の要件をどの程度満たしているかを評価する必要がある。評価方法として、人手で設計する評価観点を元に評価スコアをLLMで自動算出するLLM-as-a-Judge方法がある。しかし、評価観点の設計には、評価観点に業務要件を反映させる業務知識と、評価する各種LLMの知識とを理解する人が必要になる。本研究では、それらの知識が無くても業務要件に基づいたLLMの評価を自動で実現する方法を提案する。予め用意する業務に関わる質問に対して2つ以上のLLMに対して回答させ、これらをLLMで比較させて業務特有の評価観点を生成する。続いて、AHPを用いて重みづけした観点を元に、LLMで絶対評価を行いLLMの評価スコアを算出できるようにした。システム開発の設計書レビュー業務を題材に、5つのLLMを対象に実験を行い、この中ではgpt-4系のLLMが当該業務の要件に基づく性能を満たすことを確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1Win4] ポスターセッション1

[1Win4-101] LLMを用いた業務要件に基づくLLM自動評価方式

パスワード