Automatic Evaluation with Large Language Models based on Exploration of Inference Processes

An Tanaka; Ichiro Kobayashi

[2Win5-39] Automatic Evaluation with Large Language Models based on Exploration of Inference Processes

〇An Tanaka¹, Ichiro Kobayashi¹ (1.Ochanomizu University)

Keywords:Large Language Models, Automatic Evaluation

近年，大規模言語モデルによる生成文の評価に大規模言語モデルを用いる自動評価が，人手の評価コスト削減，従来の統計的な指標よりも内容を捉えた評価が可能である点で注目されている．本研究では，人と近い評価を出せる自動評価手法の構築を目的として二段階の学習を行う．一段階目では評価理由の生成と理由に基づいた推論の両方を可能にする．二段階目では強化学習を用いて人と近い評価をした場合の評価理由を良い推論過程とし，人のものとそぐわない評価をした場合の評価理由は良くない推論過程としてモデルを学習させる．実験設定の範囲において理由に基づく評価モデルの有効性が示唆された一方，強化学習はさらなる実験が必要となった．

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Presentation information

[2Win5] Poster session 2

[2Win5-39] Automatic Evaluation with Large Language Models based on Exploration of Inference Processes

Password