[4Xin2-53] LLMに基づく対話データに対する評価の自動化に関する検証
キーワード:対話システム、評価、大規模言語モデル
対話システムの構築に関する手法は多くある一方で,対話の評価に関する研究は課題が残される.対話の質のような数値化が困難な指標は人手で評価することが主流である.近年は対話データの評価にLLMを用いる手法が提案されている.LLMによる対話の評価は人間に比較的似た推定を行う一方で,十分な相関であるとは言えない.Elo ratingは,2つのデータの比較によってデータの評価を行っているため,評価者によって基準が異なることを考慮する必要がなく,精度が上がることが期待される.しかし,Elo ratingはすべてのケースで有効であるかは確認されていない.特に,正解データでの評価値の分布が偏っている場合などは精度が低下すると考えられる.本研究では,Elo ratingが評価値の分布に依存せずに高い精度で推定できるかを検証する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。