2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[2C6-GS-7] 画像音声メディア処理:

2024年5月29日(水) 17:30 〜 19:10 C会場 (イベントホール仮設1)

座長:寺下直行(株式会社日立製作所)

18:30 〜 18:50

[2C6-GS-7-04] Person-ReID:深層学習モデルが何を見ているか?

〇ダウ アイン ジュン1、中村 康弘1、佐藤 浩1 (1. 防衛大学校)

キーワード:人物再同定、Grad-CAM、Vision Transformer、CNN

人物再同定(Person Re-ID)は,自動視覚監視システムの主要コンポーネントの一つである.この技術は,マルチカメラネットワーク内の人物を自動的に識別・検索することを目的としている.このタスクでは、異なるカメラ間で歩行者の外見が大きく変化するため,既存のベンチマークデータセットにおいて,高い精度を達成するモデルが多数提案されているが,実世界環境に適用するにはまだ程遠い.この問題の改善のためには,ブラックボックスである深層学習モデルの挙動理解が必要である.この研究では,DukeMTMC-ReIDでCNNとVision Transformerモデルを学習し,学習済みモデルを用いて,Market1501およびCUHK03でクロスドメイン評価を行った.その結果, Vision TransformerはCNNより高い精度を達成した.その安定性を解説するために,Grad-CAMを利用して可視化した結果,Vision Transformerモデルは背景に惑わされず,人物の部分特徴とその相互関係に注目することで,優れた安定性を達成していることが確認できた.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード