[3-C-1-04] 主要オンライン対話型大規模言語モデルの薬学領域における性能評価
Large Language Models, Pharmacist License Examintion, Japanese
【目的】近年、大規模言語モデル(LLM)の発展がめざましく、医療分野においても活用がはじまっている。医療系国家試験におけるLLMの性能を検証した報告もいくつかあり、モデルの進化にともない成績が向上しつつある。しかしながら、報告の多くはChatGPTを対象としたものがほとんどであり、複数のLLMを横断的に検証した報告はない。そこで今回我々は、同一の薬剤師国家試験を対象として、複数のLLMを用いて性能評価を行った。
【方法】2022年に実施された第107回薬剤師国家試験の全設問をLLMに入力し、得られた回答を正答と比較した。用いたLLMは、オンライン上で利用可能な対話型LLMであるChatGPT(GPT-3.5)、ChatGPT(GPT-4V)、ChatGPT(GPT-4o)、Gemini 1.0Pro、Gemini 1.5Pro、Claude3 Haiku、Claude3 Sonnet、Claude3 Opus、Claude3.5 Sonnetの9種とした。
【結果】上位モデルであるChatGPT(GPT-4、GPT-4o)、Gemini 1.5Pro、Claude3 Opus、Claude3.5 Sonnetは薬剤師国家試験の合格基準を満たした。最も高スコアだったのは、ChatGPT(GPT4o)であった(正答率85.2%)。合格した上位モデルはいずれも図表を取り扱えるマルチモーダルなLLMであるが、図表を含む設問に限ると、最も高い性能を示したのはClaude3.5 Sonnetであった。
【考察】複数の上位LLMは薬剤師国家試験の合格レベルであった。一方で図表や計算を含む問題は正答率が低く、さらなる改良の余地が確認された。無料版でも高スコアのモデルが確認できた一方で、上位モデルでも正解できない問題もあり、医療分野への利活用には十分な注意が必要と思われた。
【方法】2022年に実施された第107回薬剤師国家試験の全設問をLLMに入力し、得られた回答を正答と比較した。用いたLLMは、オンライン上で利用可能な対話型LLMであるChatGPT(GPT-3.5)、ChatGPT(GPT-4V)、ChatGPT(GPT-4o)、Gemini 1.0Pro、Gemini 1.5Pro、Claude3 Haiku、Claude3 Sonnet、Claude3 Opus、Claude3.5 Sonnetの9種とした。
【結果】上位モデルであるChatGPT(GPT-4、GPT-4o)、Gemini 1.5Pro、Claude3 Opus、Claude3.5 Sonnetは薬剤師国家試験の合格基準を満たした。最も高スコアだったのは、ChatGPT(GPT4o)であった(正答率85.2%)。合格した上位モデルはいずれも図表を取り扱えるマルチモーダルなLLMであるが、図表を含む設問に限ると、最も高い性能を示したのはClaude3.5 Sonnetであった。
【考察】複数の上位LLMは薬剤師国家試験の合格レベルであった。一方で図表や計算を含む問題は正答率が低く、さらなる改良の余地が確認された。無料版でも高スコアのモデルが確認できた一方で、上位モデルでも正解できない問題もあり、医療分野への利活用には十分な注意が必要と思われた。
