Transformer x Computer Visionの実活用可能性と展望 〜TransformerのComputer Visionにおける躍進と肥大化する計算資源〜

藤井 亮宏

[SS1-01] Transformer x Computer Visionの実活用可能性と展望〜TransformerのComputer Visionにおける躍進と肥大化する計算資源〜

*藤井亮宏¹ (1. エクサウィザーズ)

略歴： 2014年3月大阪大学理学研究科物理学専攻修士課程修了。専門は第一原理計算。同年4月より（株）村田製作所にて通信モジュールのパッケージ材料開発に従事。2017年11月より（株）エクサウィザーズにて、機械学習エンジニアとして従事し、画像/動画系のタスクに携わる。

概要： Vision Transformer (ViT) が2020年末に発表され、ImageNetの認識精度においてConvolutional Neural Networks (CNN) ベースのモデルをTransformerのみを使ったモデルが凌駕した。それによってTransformerがAlexNet以降画像系タスクを支配していたCNNに取って換わる可能性が高くなったが、ViTでは大量のデータと大規模な計算資源を必要とすることが障壁となっている。本チュートリアル」では、Computer vision (CV) 系のタスクでTransformerの用途とその成果、実活用の視点からCNNとTransformerの比較、今後Transformer x CVの展望、を議論する。

抄録パスワード認証
パスワードは、6/7 に参加登録者への一斉メールにて通知しています。
論文PDFは SSII2021 会期初日 (6/9) より閲覧可能です。

講演情報

[SS1] 技術動向解説セッション1
Transformer x Computer Visionの実活用可能性と展望～TransformerのComputer Visionにおける躍進と肥大化する計算資源～

[SS1-01] Transformer x Computer Visionの実活用可能性と展望〜TransformerのComputer Visionにおける躍進と肥大化する計算資源〜

パスワード

講演情報

[SS1] 技術動向解説セッション1Transformer x Computer Visionの実活用可能性と展望 ～TransformerのComputer Visionにおける躍進と肥大化する計算資源～

[SS1-01] Transformer x Computer Visionの実活用可能性と展望 〜TransformerのComputer Visionにおける躍進と肥大化する計算資源〜

パスワード

[SS1] 技術動向解説セッション1
Transformer x Computer Visionの実活用可能性と展望～TransformerのComputer Visionにおける躍進と肥大化する計算資源～

[SS1-01] Transformer x Computer Visionの実活用可能性と展望〜TransformerのComputer Visionにおける躍進と肥大化する計算資源〜