14:20 〜 14:40
[1B3-GS-2-05] プロンプト学習を用いた複数ドメイン適応画像言語モデルの精度向上法
キーワード:プロンプト学習、ドメイン適応、画像言語モデル
言語情報と紐づけられた画像データの分析手法が近年注目されているが,画像のドメインによってデータ数に大きな差異があるという課題がある.この問題に対処するために,LADSが提案された.LADSは画像言語モデルにおける画像とテキストの埋め込み空間を活用することで,データが不足しているドメインの画像データを用いることなく学習が可能なモデルである.ここで,LADSにてドメインの説明文として用いられるテキストは単純であることが多い.しかし画像言語モデルでは,テキストが画像を適切に説明できていない場合,モデルの性能が低下する可能性がある.そこで本研究では,CoOpと呼ばれる,画像の説明文を最適化する手法を援用し,LADSにおいて使用されるドメインを表現するテキストを最適化させることで精度を向上させるモデルを提案する.CoOpはプロンプトの学習により画像言語モデルの精度を向上させる手法であり,得られたプロンプトはLADSにおいて適切に異なるドメインを表現できるようになると期待できる.最後に,実際のデータに提案手法を適用し,その有効性を示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。