2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[1D3-GS-7] 画像音声メディア処理:

2024年5月28日(火) 13:00 〜 14:40 D会場 (イベントホール仮設2)

座長:田崎豪(名城大学)

14:20 〜 14:40

[1D3-GS-7-05] Alternative Adapter Model: 視覚言語基盤モデルのための視覚的説明生成

〇平野 愼之助1、飯田 紡1、杉浦 孔明1 (1. 慶應義塾大学)

キーワード:Attention Lattice Adapter、視覚的説明生成、Side Adapter Network、Attention Branch、CLIP

深層学習が幅広い分野に応用されている現代において,深層学習モデルの説明性は重要である.しかし,既存手法は視覚言語基盤モデルに最適化されておらず,視覚言語基盤モデルに対する説明品質が低い.
そこで,本研究では視覚言語基盤モデルに対する説明生成モデルであるAlternative Adapter Modelを提案する.
提案手法は視覚言語基盤モデルに接続するSide Branch Networkおよび,モジュールの出力およびfreezeする層を動的に変更するAlternative Epoch Architectureを導入する.
提案手法を評価するため、CUBデータセットを用いて実験を行った.
実験の結果,提案手法は視覚的説明生成タスクにおける標準的な評価尺度であるmean IoU,Insertion Score,Deletion ScoreおよびID Scoreにおいて既存手法を上回り,適切な視覚的説明の生成に成功することを示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード