10:20 AM - 10:40 AM
[3G1-GS-6-05] Efficient Alignment of LLMs via Prioritized Human Preference Data
Keywords:Fine-tuning, Reinforcement Learning from Human Feedback, Large Language Model
大規模言語モデル(LLM)のアライメントにおいて、人間の選好に基づく直接選好最適化(DPO)は文章生成タスクの性能向上に有効であるが、高い計算コストが課題である。本研究では、計算資源が制約される環境での効率的なLLMのアライメントの実現を念頭に、計算コストを削減してDPOを実施するための、より優先度の高いデータから学習する新しい手法を提案する。具体的には、データサンプルごとにスコアを計算し、スコアの高い順にデータを選択することで、学習ステップ数を限定した環境でも効果的な学習を実現する。実験では、事前学習済みモデルと選好データセットを用いて一定のステップの学習を行い、外部報酬モデルによる評価を行った。その結果、提案手法は従来の方法と比較して同じ学習ステップ間の比較においてより効率的に学習を進めることを確認した。
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.