[4Xin2-13] 悲観的なRLHF
キーワード:人間のフィードバックからの強化学習、自然言語生成、強化学習
大規模言語モデル(LLM)のファインチューニングには,人間のフィードバックからの強化学習(RLHF)が広く用いられている.しかし,RLHFでは報酬モデルの学習を行うが,一般に推定誤差が残るため,報酬モデルへの過剰適応が問題になる.これはRLHFの適用を困難にする要因となっている.本研究では,この問題に対処するため,多様な報酬モデルを複数作成し、報酬の評価を悲観的に行うアプローチを提案する.具体的には,報酬モデル間の出力のばらつきから,報酬計算の確信度を評価し,確信度が低いときには悲観的に報酬を評価する.アプローチの有効性を実験的に検証する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。