Proposal of a Self-Supervised Learning Model Using Patch Position Replacement in Vision Transformer

Yuzuki Ishido

1:20 PM - 1:40 PM

[4S2-GS-2-05] Proposal of a Self-Supervised Learning Model Using Patch Position Replacement in Vision Transformer

〇Yuzuki Ishido¹, Chihiro Shibata¹ (1. Hosei University)

[[Online]]

Keywords:Deep Learning, Pre-Training, Image Processing

近年，画像処理分野において，アノテーションコストを低く抑えることができる大規模なデータを元にした汎用的な事前学習済みモデルの研究が進んでいる．特に自己教師あり学習と呼ばれる，教師なしデータを用いて学習する手法が多数提案されている．例えばDINOなどのモデルでは，Vision Transformerをベースとして得られる，クラストークンに対する埋め込み表現を学習している．しかし，それらのモデルでは，画像全体に対する埋め込み表現を学習するため，物体個数のカウントや深度推定などの，局所的な情報が重要と考えられるタスクでは，事前学習モデルとしての性能に限界がある．そのため本研究では，それらのタスクに対して有効な自己教師あり学習の手法及び，事前学習モデルを作成することを目的とする．具体的には，Vision Transformerのパッチの位置をランダムに置換し，元の位置を当てさせるような学習手法を用いることで，細かな局所情報を保有させる手法を提案する．実験の結果，ファインチューニング時に他の自己教師あり学習モデルと教師あり学習のモデルよりも優れた精度となるモデルの構築に成功した．

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Presentation information

[4S2-GS-2] Machine learning:

[4S2-GS-2-05] Proposal of a Self-Supervised Learning Model Using Patch Position Replacement in Vision Transformer

Password