14:20 〜 14:40
[1D3-GS-7-05] Alternative Adapter Model: 視覚言語基盤モデルのための視覚的説明生成
キーワード:Attention Lattice Adapter、視覚的説明生成、Side Adapter Network、Attention Branch、CLIP
深層学習が幅広い分野に応用されている現代において,深層学習モデルの説明性は重要である.しかし,既存手法は視覚言語基盤モデルに最適化されておらず,視覚言語基盤モデルに対する説明品質が低い.
そこで,本研究では視覚言語基盤モデルに対する説明生成モデルであるAlternative Adapter Modelを提案する.
提案手法は視覚言語基盤モデルに接続するSide Branch Networkおよび,モジュールの出力およびfreezeする層を動的に変更するAlternative Epoch Architectureを導入する.
提案手法を評価するため、CUBデータセットを用いて実験を行った.
実験の結果,提案手法は視覚的説明生成タスクにおける標準的な評価尺度であるmean IoU,Insertion Score,Deletion ScoreおよびID Scoreにおいて既存手法を上回り,適切な視覚的説明の生成に成功することを示した.
そこで,本研究では視覚言語基盤モデルに対する説明生成モデルであるAlternative Adapter Modelを提案する.
提案手法は視覚言語基盤モデルに接続するSide Branch Networkおよび,モジュールの出力およびfreezeする層を動的に変更するAlternative Epoch Architectureを導入する.
提案手法を評価するため、CUBデータセットを用いて実験を行った.
実験の結果,提案手法は視覚的説明生成タスクにおける標準的な評価尺度であるmean IoU,Insertion Score,Deletion ScoreおよびID Scoreにおいて既存手法を上回り,適切な視覚的説明の生成に成功することを示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。