第27回画像センシングシンポジウム

技術動向解説セッション

国際的な研究フィールドでアクティブに活躍されている若手トップ研究者をお招きし、世界最先端の技術研究動向をまとめて一挙に解説いただきます。

 


SS1
Transformer x Computer Visionの
実活用可能性と展望
〜 TransformerのComputer Visionにおける躍進と
肥大化する計算資源
6/10 (木) 14:00~14:30 メイン会場

講師:藤井 亮宏 氏
(株式会社エクサウィザーズ)​

略歴 2014年3月 大阪大学理学研究科物理学専攻 修士課程修了。専門は第一原理計算。同年4月より (株)村田製作所にて通信モジュールのパッケージ材料開発に従事。2017年11月より(株)エクサウィザーズ にて、機械学習エンジニアとして従事し、画像/動画系のタスクに携わる。

 

概要: Vision Transformer (ViT) が2020年末に発表され、ImageNetの認識精度においてConvolutional Neural Networks (CNN) ベースのモデルをTransformerのみを使ったモデルが凌駕した。それによってTransformerがAlexNet以降画像系タスクを支配していたCNNに取って換わる可能性が高くなったが、ViTでは大量のデータと大規模な計算資源を必要とすることが障壁となっている。本チュートリアル」では、Computer vision (CV) 系のタスクでTransformerの用途とその成果、実活用の視点からCNNとTransformerの比較、今後Transformer x CVの展望、を議論する。

 

こんな方におすすめ
  • エンジニアや企業研究者として画像系のタスクに関わっている方 
  • 機械学習を用いたComputer Visionの最新動向が気になっている方 
  • 最近話題のTransformerモデルが活用されている分野とその成果が知りたい方

 


SS2
Deepfake Generation and Detection
– An Overview
(ディープフェイクの生成と検出)
6/10 (木) 14:30~15:00 メイン会場
SSIIでのご講演および質疑応答では、翻訳および通訳をいたします。

講師:Huy H. Nguyen 氏
(総合研究大学院大学/国立情報学研究所)​

略歴 Huy H. Nguyen received B.S. degree in Information Technology from VNUHCM - University of Science, Ho Chi Minh City, Vietnam in 2013. He is currently pursuing a Ph.D. degree in computer science at the Graduate University for Advanced Studies (SOKENDAI) in connection with the National Institute of Informatics, Japan. His current research interests include deepfake detection, biometrics, and machine learning.

 

概要: Advances in machine learning and their interference with computer graphics allow us to easily generate high-quality images and videos. State-of-the-art manipulation methods enable the real-time manipulation of videos obtained from social networks. It is also possible to generate videos from a single portrait image. By combining these methods with speech synthesis, attackers can create a realistic video of some person saying something that they never said and distribute it on the internet. This results in loosing social trust, making confusion, and harming people’s reputation. Several countermeasures have been proposed to tackle this problem, from using hand-crafted features to using convolutional neural network. Some countermeasures use images as input and other leverage temporal information in videos. Their output could be binary (bona fide or fake) or muti-class (deepfake detection), or segmentation masks (manipulation localization). Since deepfake methods evolve rapidly, dealing with unseen ones is still a challenging problem. Some solutions have been proposed, however, this problem is not completely solved. In this talk, I will provide an overview on both deepfake generation and deepfake detection/localization. I will mainly focus on image and video domain and also introduce some audiovisual-based methods on both sides. Some open discussions and future directions are also included.

 

こんな方におすすめ
  • This talk will provide an overview of deepfake generation methods as well as their countermeasures.
  • The majority of the content focuses on image and video domains.
  • A brief overview of audio domain is also included.

 (画像・動画・音声のディープフェイクの生成手法とその対処法に興味のある方)