[SS1-01] Transformer x Computer Visionの実活用可能性と展望 〜TransformerのComputer Visionにおける躍進と肥大化する計算資源〜
略歴: 2014年3月 大阪大学理学研究科物理学専攻 修士課程修了。専門は第一原理計算。同年4月より (株)村田製作所にて通信モジュールのパッケージ材料開発に従事。2017年11月より(株)エクサウィザーズ にて、機械学習エンジニアとして従事し、画像/動画系のタスクに携わる。
概要: Vision Transformer (ViT) が2020年末に発表され、ImageNetの認識精度においてConvolutional Neural Networks (CNN) ベースのモデルをTransformerのみを使ったモデルが凌駕した。それによってTransformerがAlexNet以降画像系タスクを支配していたCNNに取って換わる可能性が高くなったが、ViTでは大量のデータと大規模な計算資源を必要とすることが障壁となっている。本チュートリアル」では、Computer vision (CV) 系のタスクでTransformerの用途とその成果、実活用の視点からCNNとTransformerの比較、今後Transformer x CVの展望、を議論する。
概要: Vision Transformer (ViT) が2020年末に発表され、ImageNetの認識精度においてConvolutional Neural Networks (CNN) ベースのモデルをTransformerのみを使ったモデルが凌駕した。それによってTransformerがAlexNet以降画像系タスクを支配していたCNNに取って換わる可能性が高くなったが、ViTでは大量のデータと大規模な計算資源を必要とすることが障壁となっている。本チュートリアル」では、Computer vision (CV) 系のタスクでTransformerの用途とその成果、実活用の視点からCNNとTransformerの比較、今後Transformer x CVの展望、を議論する。
Abstract password authentication.
Password is required to view the abstract. Please enter a password to authenticate.