VLM出力に対する画像トークン寄与度の図認識学習利用への検討

伊藤 光一郎

18:20 〜 18:40

[3N6-GS-7-03] VLM出力に対する画像トークン寄与度の図認識学習利用への検討

〇伊藤光一郎¹、金子泰之¹、橋本真太郎¹、石濱直樹¹ (1. 宇宙航空研究開発機構)

キーワード：Vision&Language、画像認識、大規模言語モデル

図認識は自然画像を対象とするVQAと比較して、LLMに図の構成を理解したうえでの推論を要求する点で難しい。また、回答文の生成に当たっては図中のどの部位を判断根拠としたかがわからない。本稿ではVLMの図認識において、LLMがトークン生成に際して注視する図の領域を活用した学習方法を検討する。
具体的には、トークン生成の根拠となる各入力トークンの貢献度可視化手法を、VLM入力の画像トークンに対して適用した。これにより得られる画像としての貢献度マップに対してセグメンテーション学習を追加で行うことで、図認識性能向上のめどを得た。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3N6-GS-7] 画像音声メディア処理：視覚言語モデル

[3N6-GS-7-03] VLM出力に対する画像トークン寄与度の図認識学習利用への検討

パスワード