大規模画像言語モデルを用いた領域埋め込みによる画像分類手法に関する一考察

櫻井 洸介

14:30 〜 14:50

[2D4-GS-2-04] 大規模画像言語モデルを用いた領域埋め込みによる画像分類手法に関する一考察

〇櫻井洸介¹、石井達也¹、清水良太郎¹、宋林鑫¹、後藤正幸¹ (1. 早稲田大学)

キーワード：領域埋め込み、データ拡張、ドメイン適応、画像言語モデル、画像分類

近年，画像分類モデルのマルチモーダル化も進んでおり，画像と言語を同時に学習した大規模画像言語モデルであるCLIPが，高精度な画像分類モデルとして広く利用されている．CLIPを応用したLADSは，学習データとして入手することが難しい未観測ドメインの画像を，CLIPで学習された潜在空間内の一点で疑似的にデータ拡張することで，特定の未観測ドメインに対する精度を向上させる画像分類モデルである．しかし，モデルの汎化性能を向上させる上で，LADSのように潜在空間内の一点をサンプリングする単純な拡張手法では，学習データには含まれない様々なドメイン（背景や物体の数が異なる場合など）から生じるデータの多様性が考慮できない．そこで，本研究では各画像の潜在表現を潜在空間上の領域として表現し，その領域内からサンプリングするデータ拡張を通じて，様々なドメインに適応可能でより頑健な画像分類手法LAREを提案する．さらに，実データを用いた評価実験により，提案手法が従来手法の画像分類精度を上回ることを示す．また，未観測ドメインや少量のデータ，偏りのあるデータに対しても実験を行い，提案手法の汎用性を確認する．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2D4-GS-2] 機械学習：画像認識

[2D4-GS-2-04] 大規模画像言語モデルを用いた領域埋め込みによる画像分類手法に関する一考察

パスワード