4:20 PM - 4:40 PM
[1E4-OS-3a-03] Zero-shot Automated Essay Scoring via Pairwise Comparisons with Large Language Models
Keywords:Automated essay scoring, Large language models, Educational measurement, Pairwise comparison
近年,小論文試験の採点コストの削減を目指すアプローチの一つとして,大規模言語モデル(LLM)を用いたゼロショット小論文自動採点手法が注目されている.しかし従来のゼロショット自動採点手法はLLMに得点を直接生成させる方法に基づいており,LLMと人間の評価基準の違いやLLMが持つバイアスによる影響を強く受けるため,採点結果が人間と一致しないことが多い.このような問題を解決するために,本研究では,直接得点を生成する方法よりも人間の評価結果と一致する可能性が高いペアワイズ比較に基づく自動採点手法を提案する.具体的には,LLMを用いて異なる二つの小論文のうちどちらが高得点かを判定するペアワイズ比較データを生成し,生成されたデータを用いてBradley-Terryモデルを基礎とする深層学習自動採点モデルを訓練する.本研究では自動採点研究で一般に利用されるペンチマークデータセットを用いて得点予測精度の評価実験を行い,提案手法の有効性を評価する.実験により,提案手法は従来のゼロショット自動採点手法よりも高い得点予測性能を達成することを確認した.
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.