2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[3N6-GS-7] 画像音声メディア処理:視覚言語モデル

2025年5月29日(木) 17:40 〜 19:20 N会場 (会議室1009)

座長:壹岐 太一(NTT)

17:40 〜 18:00

[3N6-GS-7-01] 項目反応理論を用いた視覚言語モデルのマルチモーダルな推論能力および問題特性の評価

〇上林 駿希1、増井 建斗2、新 恭兵1、包 含1、鹿島 久嗣1、大谷 まゆ2、竹内 孝1 (1. 京都大学、2. サイバーエージェント)

キーワード:視覚言語モデル、評価、項目反応理論

近年視覚言語モデル(VLM)は急速に発展している。VLMを応用する際には数多くのVLMからより能力の高いモデルを選定する必要があり、正確な評価が重要となる。応用の際、多くの場合ベンチマークによりモデルの優劣を判断しており、ベンチマークは精度評価が主流となっているが、この手法は各問題の難易度等を考慮しない評価となっており、ベンチマーク間でモデルの優劣が上下するなどモデルの能力を正確に捉えられていない可能性を示唆している。そこで、本研究では問題の解答の正誤から難易度等の問題特性と受験者の能力を同時に評価する項目反応理論をVLM評価に応用する手法を提案する。VLMの能力を詳細に評価するため、テキストおよび画像に関するVLMの能力、2つのモーダルを統合して活用する能力を推定する。問題特性についてはテキストおよび画像で発生する難易度、両方を合わせた際に相互作用で低下する難易度を推定する。実験では、ある画像とその画像に関する質問を提示されたときに正しい答えを導き出すタスクからなるデータに対して提案手法を適用し、テキストと画像の両方が必要な問題を抽出できているかを定性的に評価する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード