16:10 〜 16:30
[3J4-OS-3b-03] ViTのファインチューニング時におけるNASのモデル縮小効果
キーワード:ビジョントランスフォーマー、ファインチューニング、ニューラルアーキテクチャサーチ
画像認識では,Vision Transformer(ViT)モデルは,ImageNetの画像分類において最高精度を更新したが,そのモデルが非常に大きく,通常の計算機では推論すらできない.このような巨大なモデルを縮小するために,本研究ではChenらより提案されたAutoFormerに注目した.AutoFormerでは,スーパーネット学習と進化探索により,パラメータ数の少ないViTモデルで高い性能が得られることが知られている.一方で,ViTモデルは,大規模なデータセットでの事前学習により,分類精度が向上するが,AutoFormerの既存研究では,スーパーネット学習はスクラッチから行っている.本研究では,事前学習済みモデルを使用し,ファインチューニング時にAutoFormerのスーパーネット学習を行い,モデル探索を実行する手法を提案した.また,本研究では,AutoFormerのファインチューニング時のモデル縮小効果が検証され,同程度のパラメータ数のモデルの比較において,スクラッチから学習したものより分類精度が向上したことが確認された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。