10:20 〜 10:40
[3G1-GS-6-05] 選好データの優先度付けによる効率的なLLMのアライメント
キーワード:ファインチューニング、人間のフィードバックによる強化学習、大規模言語モデル
大規模言語モデル(LLM)のアライメントにおいて、人間の選好に基づく直接選好最適化(DPO)は文章生成タスクの性能向上に有効であるが、高い計算コストが課題である。本研究では、計算資源が制約される環境での効率的なLLMのアライメントの実現を念頭に、計算コストを削減してDPOを実施するための、より優先度の高いデータから学習する新しい手法を提案する。具体的には、データサンプルごとにスコアを計算し、スコアの高い順にデータを選択することで、学習ステップ数を限定した環境でも効果的な学習を実現する。実験では、事前学習済みモデルと選好データセットを用いて一定のステップの学習を行い、外部報酬モデルによる評価を行った。その結果、提案手法は従来の方法と比較して同じ学習ステップ間の比較においてより効率的に学習を進めることを確認した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。