[2Win5-102] LLM-as-a-Judgeと継続的学習による評価フレームワークの提案
キーワード:生成AI、評価、ヒューマンインザループ、小規模言語モデル、評価中心のAI
LLM-as-a-JudgeはLLMに評価を担わせる自動評価手法として注目されている。しかし実務導入時を前提とすると評価品質への懸念やエキスパート負荷、データドリフトなど多くの課題がある。本研究ではそうした実務上の課題に対処しつつLLM-as-a-Judgeを導入するためのフレームワークを提案する。フレームワーク実用のための実験を通じ、モデルサイズが大きいほど人手評価と近い評価を下せることと、チューニング手法としてfew-shotが機能せずfine-tuningが有効であることを示唆する結果を得た。また、fine-tuningを行う場合データ件数が多いほど人手評価と近い評価が下せることを示唆する結果を得た。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。