13:20 〜 13:40
[1B3-GS-2-02] RLHFにおける分布シフトの評価
キーワード:大規模言語モデル、人間のフィードバックからの強化学習、分布シフト、強化学習
大規模言語モデル(LLM)のFine-Tuningには,Reinforcement Learning from Human Feedback(RLHF)が用いられる. RLHFは,(1) LLMの Supervised Fine-Tuning(SFT),(2) 人間の選好に基づくSFTモデルの生成文のランキング評価,(3) 選好データセットを用いた報酬モデルの学習,(4) 報酬モデルを用いたSFTモデルの強化学習,という4つのプロセスからなる. 人間による評価にはコストがかかるため,報酬モデルの学習には公開データセットや過去のデータを用いることが多い. これらのデータ生成モデルとSFTモデルは異なるため,報酬モデルの学習するデータと評価するデータに"分布シフト"が生じる. 本研究では,この影響を分析するため,SFTモデル以外に性能が異なる複数のLLMを用いて選好データセットを作成して、いくつかのシナリオでRLHFを行う.結果を比較することで,分布シフトが問題になる状況を明らかにする.分析の結果,報酬モデルに分布シフトがある場合にRLHFの性能を劣化させることを確認した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。