2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[3N6-GS-7] 画像音声メディア処理:視覚言語モデル

2025年5月29日(木) 17:40 〜 19:20 N会場 (会議室1009)

座長:壹岐 太一(NTT)

18:20 〜 18:40

[3N6-GS-7-03] VLM出力に対する画像トークン寄与度の図認識学習利用への検討

〇伊藤 光一郎1、金子 泰之1、橋本 真太郎1、石濱 直樹1 (1. 宇宙航空研究開発機構)

キーワード:Vision&Language、画像認識、大規模言語モデル

図認識は自然画像を対象とするVQAと比較して、LLMに図の構成を理解したうえでの推論を要求する点で難しい。また、回答文の生成に当たっては図中のどの部位を判断根拠としたかがわからない。本稿ではVLMの図認識において、LLMがトークン生成に際して注視する図の領域を活用した学習方法を検討する。
具体的には、トークン生成の根拠となる各入力トークンの貢献度可視化手法を、VLM入力の画像トークンに対して適用した。これにより得られる画像としての貢献度マップに対してセグメンテーション学習を追加で行うことで、図認識性能向上のめどを得た。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード