2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-41 世界モデルと知能

[1B5-OS-41c] 世界モデルと知能

2025年5月27日(火) 17:40 〜 19:20 B会場 (小ホール)

オーガナイザ:鈴木 雅大(東京大学),岩澤 有祐(東京大学),河野 慎(東京大学),熊谷 亘(オムロンサイニックエックス),松嶋 達也(東京大学),Paavo Parmas(東京大学),谷口 尚平(東京大学)

18:40 〜 19:00

[1B5-OS-41c-04] JDERW:世界モデルを要する推論問題に関する日本語LLMベンチマーク

〇尾崎 大晟1、松下 拓海2、三浦 剛3、谷口 尚平3、松尾 豊3 (1. 大阪公立大学大学院、2. 東京科学大学、3. 東京大学)

キーワード:世界モデル、演繹的推論、ベンチマーク

近年、大規模言語モデル(LLM)は単純なNext token predictionを超えた能力を示唆していることから、基礎的な世界モデルを獲得している可能性が議論されている。本研究では、世界理解能力を要する演繹的推論ベンチマークデータセットBasic-JDERWを提案する。このデータセットは、物理現象の理解から社会常識、行動計画といった基本的な世界モデルの活用を必要とする103件のQAタスクから構成され、因果推論、時間的推論、空間的推論、抽象概念推論、常識推論、計画推論の6つのカテゴリに分類される。8種類のLLMを用いた評価実験では、各カテゴリにおけるモデルの性能を分析し、既存ベンチマークとの相関関係を検証した。時間的推論や空間的推論などの物理的理解を要するカテゴリでは、特にllama3.3-70B-instructが高い性能を示した。本研究は、LLMの推論能力に垣間見える基礎的な世界理解能力の評価に新たな視点を提供し、言語推論能力と世界理解能力の関係性の解明に一定の寄与があることを期待する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード