18:20 〜 18:40
[3N6-GS-7-03] VLM出力に対する画像トークン寄与度の図認識学習利用への検討
キーワード:Vision&Language、画像認識、大規模言語モデル
図認識は自然画像を対象とするVQAと比較して、LLMに図の構成を理解したうえでの推論を要求する点で難しい。また、回答文の生成に当たっては図中のどの部位を判断根拠としたかがわからない。本稿ではVLMの図認識において、LLMがトークン生成に際して注視する図の領域を活用した学習方法を検討する。
具体的には、トークン生成の根拠となる各入力トークンの貢献度可視化手法を、VLM入力の画像トークンに対して適用した。これにより得られる画像としての貢献度マップに対してセグメンテーション学習を追加で行うことで、図認識性能向上のめどを得た。
具体的には、トークン生成の根拠となる各入力トークンの貢献度可視化手法を、VLM入力の画像トークンに対して適用した。これにより得られる画像としての貢献度マップに対してセグメンテーション学習を追加で行うことで、図認識性能向上のめどを得た。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。