2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-41 世界モデルと知能

[1B5-OS-41c] 世界モデルと知能

2025年5月27日(火) 17:40 〜 19:20 B会場 (小ホール)

オーガナイザ:鈴木 雅大(東京大学),岩澤 有祐(東京大学),河野 慎(東京大学),熊谷 亘(オムロンサイニックエックス),松嶋 達也(東京大学),Paavo Parmas(東京大学),谷口 尚平(東京大学)

18:20 〜 18:40

[1B5-OS-41c-03] ウィスコンシンカード分類課題における大規模言語モデルの性能とその回答分析

〇後藤 大毅1、出井 勇人1,2、塩塚 雄志1、尾形 哲也1,3 (1. 早稲田大学、2. 国立精神・神経医療研究センター、3. 国立研究開発法人 産業技術総合研究所)

キーワード:大規模言語モデル、認知的柔軟性、ウィスコンシンカード分類課題、機械心理学

大規模言語モデル(LLM)の性能を測定するために、心理学実験をLLMに適用する研究が存在する。認知的柔軟性に関する実験であるウィスコンシンカード分類課題(WCST)を用いたものもその一つだが、先行研究ではモデル間の回答メカニズムの差異が十分に検討されているとは言えない。本研究では、LLM群(ChatGPT 4o、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、 Gemini 2.0)にWCSTを回答させ、回答傾向の比較・メカニズムの検討を実施した。実験の結果、ChatGPT 4o が50%以上、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、Gemini 2.0 が30%以下の正答率を記録した。一方、WCSTの回答において重要となるルールの推定結果も出力させたところ、ChatGPT 4o mini のみで、出力されたルールと回答との対応が50%以上の確率で一致しなかった。この結果は、WCSTの回答において各モデルが異なる回答メカニズムを有することを示唆する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード