JSAI2025

Presentation information

General Session

General Session » GS-7 Vision, speech media processing

[3N6-GS-7] Vision, speech media processing:

Thu. May 29, 2025 5:40 PM - 7:20 PM Room N (Room 1009)

座長:壹岐 太一(NTT)

6:20 PM - 6:40 PM

[3N6-GS-7-03] Exploring VLM Image Token Contributions for Visual Recognition Learning

〇Koichiro Ito1, Yasuuki Kaneko1, Shintaro Hashimoto1, Naoki Ishihama1 (1. JAXA)

Keywords:Vision&Language, Image recognition, Large language model

図認識は自然画像を対象とするVQAと比較して、LLMに図の構成を理解したうえでの推論を要求する点で難しい。また、回答文の生成に当たっては図中のどの部位を判断根拠としたかがわからない。本稿ではVLMの図認識において、LLMがトークン生成に際して注視する図の領域を活用した学習方法を検討する。
具体的には、トークン生成の根拠となる各入力トークンの貢献度可視化手法を、VLM入力の画像トークンに対して適用した。これにより得られる画像としての貢献度マップに対してセグメンテーション学習を追加で行うことで、図認識性能向上のめどを得た。

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password