2:00 PM - 2:20 PM
[4L3-OS-38-01] Estimating Human Judge Scores through Post-Hoc Annotation of LLM-as-a-Judge
Keywords:LLM-as-a-judge, Human-in-the-loop, Annotation, Human feedback, Large language models
リクルートでは、事業者の業務や経営を支援するサービス・プロダクト群を提供している。これらのサービスの利用者が増加する中で、問い合わせ窓口のスケールアップを支えるため、AIチャットボットによる自動応対の導入が進められている。システムの改善施策の実施には評価指標の計測・モニタリングが重要だが、チャットボットの応対品質は自由度の高いテキストデータに基づくため、従来であれば人手による継続的な評価作業を要し、高コストとなる。
この場合の評価法として、大規模言語モデル(LLM)による自動評価を行う「LLM-as-a-judge」が近年提案されている。これは自然言語での応対を大規模に自動評価しうる有望なアプローチだが、その一方、LLMの評価と人間の評価には無視できない乖離があることが知られている。
そこで本発表では、チャットボットの性能評価のためのLLM-as-a-judgeの適用事例を紹介するとともに、新たな工夫として、LLMの判定結果に対して事後的なアノテーションを行うことで、人による全量評価の場合に得られるであろう評価指標値を推定することを提案し、その試みについても報告する。
この場合の評価法として、大規模言語モデル(LLM)による自動評価を行う「LLM-as-a-judge」が近年提案されている。これは自然言語での応対を大規模に自動評価しうる有望なアプローチだが、その一方、LLMの評価と人間の評価には無視できない乖離があることが知られている。
そこで本発表では、チャットボットの性能評価のためのLLM-as-a-judgeの適用事例を紹介するとともに、新たな工夫として、LLMの判定結果に対して事後的なアノテーションを行うことで、人による全量評価の場合に得られるであろう評価指標値を推定することを提案し、その試みについても報告する。
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.