2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4I3-GS-7] 画像音声メディア処理:

2024年5月31日(金) 14:00 〜 15:20 I会場 (41会議室)

座長:宇野 裕(日本電気株式会社)

14:40 〜 15:00

[4I3-GS-7-03] LVLMsにおけるAttention Mapと勾配情報を活用したObject Hallucinationの検出と修正

〇山路 和希1、高木 友博1 (1. 明治大学大学院)

キーワード:物体幻覚、マルチモーダル、Large Vision-Language Models

Large Language Models(LLM)の卓越した言語処理能力に刺激を受け、近年、複雑なマルチモーダルタスクの性能向上を目的として、強力なLLMを組み込んだ Large Vision Language Models(LVLMs)の開発が進められている。
しかし、これらLVLMsには、不適切な認識により、画像内に存在しない物体や物体同士の間違った関係性を記述してしまう問題(Object Hallucination)が存在する。

そこでこの問題に対処するため、我々は、Object Hallucinationを検知し、修正を行うフレームワークを提案する
このフレームワークでは、LVLMs内のAttention Mapや勾配情報などを元に、Object Hallucinationが発生する原因となった画像の特定部分を特定・検知し、その修正を行う。
実験を通じて、提案手法によりObject Hallucinationの発生が軽減されることを、複数の定量的指標を用いて確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード