2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-41 世界モデルと知能

[1B5-OS-41c] 世界モデルと知能

2025年5月27日(火) 17:40 〜 19:20 B会場 (小ホール)

オーガナイザ:鈴木 雅大(東京大学),岩澤 有祐(東京大学),河野 慎(東京大学),熊谷 亘(オムロンサイニックエックス),松嶋 達也(東京大学),Paavo Parmas(東京大学),谷口 尚平(東京大学)

18:00 〜 18:20

[1B5-OS-41c-02] 大規模言語モデルによる指示文拡張と二段階事前学習を用いた世界モデルのオフライン事前学習手法の評価

〇高円 悠聖1、藤間 裕史2、武田 康宏1、河野 慎1、松尾 豊1 (1. 東京大学、2. 慶應義塾大学)

キーワード:世界モデル、大規模言語モデル、オフライン事前学習、モデルベース強化学習

近年、テキストなどのオフラインデータを活用した世界モデルの事前学習が、タスク学習の効率向上に大きく寄与することが示されている。特に、Dynalangでは、タスク指示や環境のダイナミクスといった情報を活用することで、性能向上やサンプル効率の改善に成功しているが、この手法はMessengerタスクに限定して適用されており、他のタスク環境での有効性や、事前学習に使用するテキストの種類や質が性能に与える影響については十分な検討が行われていない。 本研究では、より簡易なHomeGridタスクにDynalangの手法を適用し、その汎用性を検証する。また、大規模言語モデル(LLM)を活用し、タスクに関連するドメイン特化型テキストを生成・拡張することで、学習初期のパフォーマンス向上およびサンプル効率の改善を調査した。さらに、一般的な文章で基礎的な言語理解を学習し、その後ドメイン特化型文章でタスク特化能力を強化する二段階事前学習戦略の有効性を検証した。 本研究の結果は、テキストを活用した事前学習手法の適用範囲を拡大し、モデルベース強化学習における新たな可能性を示すものである。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード