大規模言語モデルによる指示文拡張と二段階事前学習を用いた世界モデルのオフライン事前学習手法の評価

高円 悠聖

18:00 〜 18:20

[1B5-OS-41c-02] 大規模言語モデルによる指示文拡張と二段階事前学習を用いた世界モデルのオフライン事前学習手法の評価

〇高円悠聖¹、藤間裕史²、武田康宏¹、河野慎¹、松尾豊¹ (1. 東京大学、2. 慶應義塾大学)

キーワード：世界モデル、大規模言語モデル、オフライン事前学習、モデルベース強化学習

近年、テキストなどのオフラインデータを活用した世界モデルの事前学習が、タスク学習の効率向上に大きく寄与することが示されている。特に、Dynalangでは、タスク指示や環境のダイナミクスといった情報を活用することで、性能向上やサンプル効率の改善に成功しているが、この手法はMessengerタスクに限定して適用されており、他のタスク環境での有効性や、事前学習に使用するテキストの種類や質が性能に与える影響については十分な検討が行われていない。本研究では、より簡易なHomeGridタスクにDynalangの手法を適用し、その汎用性を検証する。また、大規模言語モデル（LLM）を活用し、タスクに関連するドメイン特化型テキストを生成・拡張することで、学習初期のパフォーマンス向上およびサンプル効率の改善を調査した。さらに、一般的な文章で基礎的な言語理解を学習し、その後ドメイン特化型文章でタスク特化能力を強化する二段階事前学習戦略の有効性を検証した。本研究の結果は、テキストを活用した事前学習手法の適用範囲を拡大し、モデルベース強化学習における新たな可能性を示すものである。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1B5-OS-41c] 世界モデルと知能

[1B5-OS-41c-02] 大規模言語モデルによる指示文拡張と二段階事前学習を用いた世界モデルのオフライン事前学習手法の評価

パスワード