13:20 〜 13:40
[4S2-GS-2-05] Vision Transformerにおけるパッチの位置置換による自己教師あり学習モデルの提案
[[オンライン]]
キーワード:深層学習、事前学習、画像処理
近年,画像処理分野において,アノテーションコストを低く抑えることができる大規模なデータを元にした汎用的な事前学習済みモデルの研究が進んでいる.特に自己教師あり学習と呼ばれる,教師なしデータを用いて学習する手法が多数提案されている.例えばDINOなどのモデルでは,Vision Transformerをベースとして得られる,クラストークンに対する埋め込み表現を学習している.しかし,それらのモデルでは,画像全体に対する埋め込み表現を学習するため,物体個数のカウントや深度推定などの,局所的な情報が重要と考えられるタスクでは,事前学習モデルとしての性能に限界がある.そのため本研究では,それらのタスクに対して有効な自己教師あり学習の手法及び,事前学習モデルを作成することを目的とする.具体的には,Vision Transformerのパッチの位置をランダムに置換し,元の位置を当てさせるような学習手法を用いることで,細かな局所情報を保有させる手法を提案する.実験の結果,ファインチューニング時に他の自己教師あり学習モデルと教師あり学習のモデルよりも優れた精度となるモデルの構築に成功した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。