JSAI2025

Presentation information

General Session

General Session » GS-7 Vision, speech media processing

[3N6-GS-7] Vision, speech media processing:

Thu. May 29, 2025 5:40 PM - 7:20 PM Room N (Room 1009)

座長:壹岐 太一(NTT)

5:40 PM - 6:00 PM

[3N6-GS-7-01] Towards Evaluating the Performance of Vision-Language Models

〇Shunki Uebayashi1, Kento Masui2, Kyohei Atarashi1, Han Bao1, Hisashi Kashima1, Mayu Otani2, Koh Takeuchi1 (1. Kyoto University, 2. CyberAgent)

Keywords:VLM, Evaluation, IRT

近年視覚言語モデル(VLM)は急速に発展している。VLMを応用する際には数多くのVLMからより能力の高いモデルを選定する必要があり、正確な評価が重要となる。応用の際、多くの場合ベンチマークによりモデルの優劣を判断しており、ベンチマークは精度評価が主流となっているが、この手法は各問題の難易度等を考慮しない評価となっており、ベンチマーク間でモデルの優劣が上下するなどモデルの能力を正確に捉えられていない可能性を示唆している。そこで、本研究では問題の解答の正誤から難易度等の問題特性と受験者の能力を同時に評価する項目反応理論をVLM評価に応用する手法を提案する。VLMの能力を詳細に評価するため、テキストおよび画像に関するVLMの能力、2つのモーダルを統合して活用する能力を推定する。問題特性についてはテキストおよび画像で発生する難易度、両方を合わせた際に相互作用で低下する難易度を推定する。実験では、ある画像とその画像に関する質問を提示されたときに正しい答えを導き出すタスクからなるデータに対して提案手法を適用し、テキストと画像の両方が必要な問題を抽出できているかを定性的に評価する。

Please log in with your participant account.
» Participant Log In