18:40 〜 19:00
[1B5-OS-41c-04] JDERW:世界モデルを要する推論問題に関する日本語LLMベンチマーク
キーワード:世界モデル、演繹的推論、ベンチマーク
近年、大規模言語モデル(LLM)は単純なNext token predictionを超えた能力を示唆していることから、基礎的な世界モデルを獲得している可能性が議論されている。本研究では、世界理解能力を要する演繹的推論ベンチマークデータセットBasic-JDERWを提案する。このデータセットは、物理現象の理解から社会常識、行動計画といった基本的な世界モデルの活用を必要とする103件のQAタスクから構成され、因果推論、時間的推論、空間的推論、抽象概念推論、常識推論、計画推論の6つのカテゴリに分類される。8種類のLLMを用いた評価実験では、各カテゴリにおけるモデルの性能を分析し、既存ベンチマークとの相関関係を検証した。時間的推論や空間的推論などの物理的理解を要するカテゴリでは、特にllama3.3-70B-instructが高い性能を示した。本研究は、LLMの推論能力に垣間見える基礎的な世界理解能力の評価に新たな視点を提供し、言語推論能力と世界理解能力の関係性の解明に一定の寄与があることを期待する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。