2024年度 人工知能学会全国大会(第38回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[4Xin2] ポスターセッション2

2024年5月31日(金) 12:00 〜 13:40 X会場 (イベントホール1)

[4Xin2-13] 悲観的なRLHF

〇森村 哲郎1、坂本 充生1 (1.株式会社サイバーエージェント)

キーワード:人間のフィードバックからの強化学習、自然言語生成、強化学習

大規模言語モデル(LLM)のファインチューニングには,人間のフィードバックからの強化学習(RLHF)が広く用いられている.しかし,RLHFでは報酬モデルの学習を行うが,一般に推定誤差が残るため,報酬モデルへの過剰適応が問題になる.これはRLHFの適用を困難にする要因となっている.本研究では,この問題に対処するため,多様な報酬モデルを複数作成し、報酬の評価を悲観的に行うアプローチを提案する.具体的には,報酬モデル間の出力のばらつきから,報酬計算の確信度を評価し,確信度が低いときには悲観的に報酬を評価する.アプローチの有効性を実験的に検証する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード