18:20 〜 18:40
[1B5-OS-41c-03] ウィスコンシンカード分類課題における大規模言語モデルの性能とその回答分析
キーワード:大規模言語モデル、認知的柔軟性、ウィスコンシンカード分類課題、機械心理学
大規模言語モデル(LLM)の性能を測定するために、心理学実験をLLMに適用する研究が存在する。認知的柔軟性に関する実験であるウィスコンシンカード分類課題(WCST)を用いたものもその一つだが、先行研究ではモデル間の回答メカニズムの差異が十分に検討されているとは言えない。本研究では、LLM群(ChatGPT 4o、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、 Gemini 2.0)にWCSTを回答させ、回答傾向の比較・メカニズムの検討を実施した。実験の結果、ChatGPT 4o が50%以上、ChatGPT o1、ChatGPT o1 mini、ChatGPT 4o mini、Gemini 1.5、Gemini 2.0 が30%以下の正答率を記録した。一方、WCSTの回答において重要となるルールの推定結果も出力させたところ、ChatGPT 4o mini のみで、出力されたルールと回答との対応が50%以上の確率で一致しなかった。この結果は、WCSTの回答において各モデルが異なる回答メカニズムを有することを示唆する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。