RLHFにおける分布シフトの評価

坂本 充生

13:20 〜 13:40

[1B3-GS-2-02] RLHFにおける分布シフトの評価

〇坂本充生¹、森村哲郎¹、陣内佑¹、阿部拳之¹、蟻生開人¹ (1. 株式会社サイバーエージェント)

キーワード：大規模言語モデル、人間のフィードバックからの強化学習、分布シフト、強化学習

大規模言語モデル（LLM）のFine-Tuningには，Reinforcement Learning from Human Feedback（RLHF）が用いられる． RLHFは，(1) LLMの Supervised Fine-Tuning（SFT），(2) 人間の選好に基づくSFTモデルの生成文のランキング評価，(3) 選好データセットを用いた報酬モデルの学習，(4) 報酬モデルを用いたSFTモデルの強化学習，という4つのプロセスからなる．人間による評価にはコストがかかるため，報酬モデルの学習には公開データセットや過去のデータを用いることが多い. これらのデータ生成モデルとSFTモデルは異なるため，報酬モデルの学習するデータと評価するデータに"分布シフト"が生じる．本研究では，この影響を分析するため，SFTモデル以外に性能が異なる複数のLLMを用いて選好データセットを作成して、いくつかのシナリオでRLHFを行う．結果を比較することで，分布シフトが問題になる状況を明らかにする．分析の結果,報酬モデルに分布シフトがある場合にRLHFの性能を劣化させることを確認した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1B3-GS-2] 機械学習：生成モデル

[1B3-GS-2-02] RLHFにおける分布シフトの評価

パスワード