14:00 〜 14:20
[4L3-OS-38-01] LLM-as-a-judgeへの事後アノテーションによる人補正
キーワード:大規模言語モデルによる評価、ヒューマン・イン・ザ・ループ、アノテーション、ヒューマンフィードバック、大規模言語モデル
リクルートでは、事業者の業務や経営を支援するサービス・プロダクト群を提供している。これらのサービスの利用者が増加する中で、問い合わせ窓口のスケールアップを支えるため、AIチャットボットによる自動応対の導入が進められている。システムの改善施策の実施には評価指標の計測・モニタリングが重要だが、チャットボットの応対品質は自由度の高いテキストデータに基づくため、従来であれば人手による継続的な評価作業を要し、高コストとなる。
この場合の評価法として、大規模言語モデル(LLM)による自動評価を行う「LLM-as-a-judge」が近年提案されている。これは自然言語での応対を大規模に自動評価しうる有望なアプローチだが、その一方、LLMの評価と人間の評価には無視できない乖離があることが知られている。
そこで本発表では、チャットボットの性能評価のためのLLM-as-a-judgeの適用事例を紹介するとともに、新たな工夫として、LLMの判定結果に対して事後的なアノテーションを行うことで、人による全量評価の場合に得られるであろう評価指標値を推定することを提案し、その試みについても報告する。
この場合の評価法として、大規模言語モデル(LLM)による自動評価を行う「LLM-as-a-judge」が近年提案されている。これは自然言語での応対を大規模に自動評価しうる有望なアプローチだが、その一方、LLMの評価と人間の評価には無視できない乖離があることが知られている。
そこで本発表では、チャットボットの性能評価のためのLLM-as-a-judgeの適用事例を紹介するとともに、新たな工夫として、LLMの判定結果に対して事後的なアノテーションを行うことで、人による全量評価の場合に得られるであろう評価指標値を推定することを提案し、その試みについても報告する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。