14:40 〜 15:00
[4I3-GS-7-03] LVLMsにおけるAttention Mapと勾配情報を活用したObject Hallucinationの検出と修正
キーワード:物体幻覚、マルチモーダル、Large Vision-Language Models
Large Language Models(LLM)の卓越した言語処理能力に刺激を受け、近年、複雑なマルチモーダルタスクの性能向上を目的として、強力なLLMを組み込んだ Large Vision Language Models(LVLMs)の開発が進められている。
しかし、これらLVLMsには、不適切な認識により、画像内に存在しない物体や物体同士の間違った関係性を記述してしまう問題(Object Hallucination)が存在する。
そこでこの問題に対処するため、我々は、Object Hallucinationを検知し、修正を行うフレームワークを提案する
このフレームワークでは、LVLMs内のAttention Mapや勾配情報などを元に、Object Hallucinationが発生する原因となった画像の特定部分を特定・検知し、その修正を行う。
実験を通じて、提案手法によりObject Hallucinationの発生が軽減されることを、複数の定量的指標を用いて確認した。
しかし、これらLVLMsには、不適切な認識により、画像内に存在しない物体や物体同士の間違った関係性を記述してしまう問題(Object Hallucination)が存在する。
そこでこの問題に対処するため、我々は、Object Hallucinationを検知し、修正を行うフレームワークを提案する
このフレームワークでは、LVLMs内のAttention Mapや勾配情報などを元に、Object Hallucinationが発生する原因となった画像の特定部分を特定・検知し、その修正を行う。
実験を通じて、提案手法によりObject Hallucinationの発生が軽減されることを、複数の定量的指標を用いて確認した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。