2024年度 人工知能学会全国大会(第38回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-16 世界モデルと知能

[3O1-OS-16b] 世界モデルと知能

2024年5月30日(木) 09:00 〜 10:40 O会場 (音楽工房ホール)

オーガナイザ:鈴木 雅大(東京大学)、岩澤 有祐(東京大学)、河野 慎(東京大学)、熊谷 亘(東京大学)、松嶋 達也(東京大学)、森 友亮(株式会社スクウェア・エニックス)、松尾 豊(東京大学)

09:00 〜 09:20

[3O1-OS-16b-01] 視覚的情報と予測指向プロンプトを用いたLLMに基づくEmbodied世界モデル

〇朏島 和香那1、中窪 仰佑2、平山 翔湧3、鈴木 雅大4、松尾 豊4 (1. University of York、2. 九州工業大学、3. 東京大学、4. 東京大学大学院工学系研究科)

[[オンライン]]

キーワード:世界モデル、大規模言語モデル、Embodied AI、視覚データ、プロンプティング

近年,機械学習,特に視覚と言語理解が進歩するにつれて,Embodied AI の研究も発展してきた.LLM ベースのEmbodied AIとしてはVOYAGER が知られており,Minecraftの世界で自律的な探索を行うことを可能としたが,視覚的データの未活用や世界モデルとしての機能の不明確性といった課題がある.そこで本研究では,Embodied AIのパフォーマンス向上を目的とし,視覚的データの活用可能性とLLMの世界モデルとしての機能を調査した.実験の結果,LLMは視覚データから必要な情報を抽出することができ,その情報を活用することで世界モデルとしての性能を向上させることができることが明らかとなった. また,プロンプトの工夫によってLLMの世界モデルとしての機能を引き出すことができる可能性が示唆された.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード