視覚的情報と予測指向プロンプトを用いたLLMに基づくEmbodied世界モデル

朏島 和香那

09:00 〜 09:20

[3O1-OS-16b-01] 視覚的情報と予測指向プロンプトを用いたLLMに基づくEmbodied世界モデル

〇朏島和香那¹、中窪仰佑²、平山翔湧³、鈴木雅大⁴、松尾豊⁴ (1. University of York、2. 九州工業大学、3. 東京大学、4. 東京大学大学院工学系研究科)

[[オンライン]]

キーワード：世界モデル、大規模言語モデル、Embodied AI、視覚データ、プロンプティング

近年，機械学習，特に視覚と言語理解が進歩するにつれて，Embodied AI の研究も発展してきた．LLM ベースのEmbodied AIとしてはVOYAGER が知られており，Minecraftの世界で自律的な探索を行うことを可能としたが，視覚的データの未活用や世界モデルとしての機能の不明確性といった課題がある．そこで本研究では，Embodied AIのパフォーマンス向上を目的とし，視覚的データの活用可能性とLLMの世界モデルとしての機能を調査した．実験の結果，LLMは視覚データから必要な情報を抽出することができ，その情報を活用することで世界モデルとしての性能を向上させることができることが明らかとなった．また，プロンプトの工夫によってLLMの世界モデルとしての機能を引き出すことができる可能性が示唆された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3O1-OS-16b] 世界モデルと知能

[3O1-OS-16b-01] 視覚的情報と予測指向プロンプトを用いたLLMに基づくEmbodied世界モデル

パスワード