Alternative Adapter Model: 視覚言語基盤モデルのための視覚的説明生成

平野 愼之助

14:20 〜 14:40

[1D3-GS-7-05] Alternative Adapter Model: 視覚言語基盤モデルのための視覚的説明生成

〇平野愼之助¹、飯田紡¹、杉浦孔明¹ (1. 慶應義塾大学)

キーワード：Attention Lattice Adapter、視覚的説明生成、Side Adapter Network、Attention Branch、CLIP

深層学習が幅広い分野に応用されている現代において，深層学習モデルの説明性は重要である．しかし，既存手法は視覚言語基盤モデルに最適化されておらず，視覚言語基盤モデルに対する説明品質が低い．
そこで，本研究では視覚言語基盤モデルに対する説明生成モデルであるAlternative Adapter Modelを提案する．
提案手法は視覚言語基盤モデルに接続するSide Branch Networkおよび，モジュールの出力およびfreezeする層を動的に変更するAlternative Epoch Architectureを導入する．
提案手法を評価するため、CUBデータセットを用いて実験を行った．
実験の結果，提案手法は視覚的説明生成タスクにおける標準的な評価尺度であるmean IoU，Insertion Score，Deletion ScoreおよびID Scoreにおいて既存手法を上回り，適切な視覚的説明の生成に成功することを示した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1D3-GS-7] 画像音声メディア処理：

[1D3-GS-7-05] Alternative Adapter Model: 視覚言語基盤モデルのための視覚的説明生成

パスワード