2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[1B3-GS-2] 機械学習:生成モデル

2024年5月28日(火) 13:00 〜 14:40 B会場 (中ホール)

座長:比嘉恭太(NEC)

13:20 〜 13:40

[1B3-GS-2-02] RLHFにおける分布シフトの評価

〇坂本 充生1、森村 哲郎1、陣内 佑1、阿部 拳之1、蟻生 開人1 (1. 株式会社サイバーエージェント)

キーワード:大規模言語モデル、人間のフィードバックからの強化学習、分布シフト、強化学習

大規模言語モデル(LLM)のFine-Tuningには,Reinforcement Learning from Human Feedback(RLHF)が用いられる. RLHFは,(1) LLMの Supervised Fine-Tuning(SFT),(2) 人間の選好に基づくSFTモデルの生成文のランキング評価,(3) 選好データセットを用いた報酬モデルの学習,(4) 報酬モデルを用いたSFTモデルの強化学習,という4つのプロセスからなる. 人間による評価にはコストがかかるため,報酬モデルの学習には公開データセットや過去のデータを用いることが多い. これらのデータ生成モデルとSFTモデルは異なるため,報酬モデルの学習するデータと評価するデータに"分布シフト"が生じる. 本研究では,この影響を分析するため,SFTモデル以外に性能が異なる複数のLLMを用いて選好データセットを作成して、いくつかのシナリオでRLHFを行う.結果を比較することで,分布シフトが問題になる状況を明らかにする.分析の結果,報酬モデルに分布シフトがある場合にRLHFの性能を劣化させることを確認した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード