18:30 〜 18:50
[2C6-GS-7-04] Person-ReID:深層学習モデルが何を見ているか?
キーワード:人物再同定、Grad-CAM、Vision Transformer、CNN
人物再同定(Person Re-ID)は,自動視覚監視システムの主要コンポーネントの一つである.この技術は,マルチカメラネットワーク内の人物を自動的に識別・検索することを目的としている.このタスクでは、異なるカメラ間で歩行者の外見が大きく変化するため,既存のベンチマークデータセットにおいて,高い精度を達成するモデルが多数提案されているが,実世界環境に適用するにはまだ程遠い.この問題の改善のためには,ブラックボックスである深層学習モデルの挙動理解が必要である.この研究では,DukeMTMC-ReIDでCNNとVision Transformerモデルを学習し,学習済みモデルを用いて,Market1501およびCUHK03でクロスドメイン評価を行った.その結果, Vision TransformerはCNNより高い精度を達成した.その安定性を解説するために,Grad-CAMを利用して可視化した結果,Vision Transformerモデルは背景に惑わされず,人物の部分特徴とその相互関係に注目することで,優れた安定性を達成していることが確認できた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。