09:20 〜 09:40
[4A1-GS-6-02] RLHF を用いたゲームデータに関する LLM の学習手法の検討
キーワード:大規模言語モデル、アライメント、RLHF、BERT
近年,人工知能分野における大規模言語モデル(Large Language Model : LLM)の進展は著しく,様々な自然言語処理タスクで優れた性能を発揮している.その中で LLM の価値観や目的を人間と合致させるため,アライメント(Alignment)の調整が必要とされるようになった.このようなアライメント調整手法として,人間からのフィードバックを用いた強化学習である Reinforcement Learning from Human Feedback (RLHF) が注目されている.
そこで本研究では,ゲームシナリオデータとして恋愛シミュレーションゲーム「ときめきメモリアル3~約束のあの場所で~」のシナリオを用いて,RLHF を用いた LLM の学習手法について検討した.具体的には,日本語 5 文字に続く文章をキャラクターの性格に合わせて生成する実験をした.主観的な評価ではあるが,各キャラクターに適合した文章が生成できることが確認できた.
そこで本研究では,ゲームシナリオデータとして恋愛シミュレーションゲーム「ときめきメモリアル3~約束のあの場所で~」のシナリオを用いて,RLHF を用いた LLM の学習手法について検討した.具体的には,日本語 5 文字に続く文章をキャラクターの性格に合わせて生成する実験をした.主観的な評価ではあるが,各キャラクターに適合した文章が生成できることが確認できた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。