15:00 〜 15:20
[4J3-GS-2-04] 深層学習におけるバックドア攻撃に対する蒸留を用いた対策とポイズンデータの特定
キーワード:ポイズニング攻撃、バックドア攻撃、ニューラルネットワーク
深層学習(DNN)システムにおけるセキュリティ課題として,バックドア攻撃が知られている.画像認識におけるバックドア攻撃では,攻撃者はDNNモデルの学習データセットに,特定位置へのドット付与などの目立たない加工を施し,加工前とは異なるターゲットラベルを設定した少量の異常データ(ポイズンデータ)を混入させる.このデータセットを用いて学習したDNNモデル(バックドアモデル)は,正常な入力に対しては正常に推論を行うが,ポイズンデータと同様の加工が施された入力に対しては,推論結果がターゲットラベルに誘導されてしまう.本稿では,DNNモデルユーザ(防御者)がラベルのないクリーンなデータを収集できるタスクを想定し,蒸留を用いたバックドア攻撃への対策を提案する.バックドアモデルを教師とし,クリーンデータを用いて蒸留することで,ポイズンデータの影響を排除した生徒モデルが得られる.更に,バックドアモデルと生徒モデルそれぞれで学習データセットを分類した時の推論結果の差分から,学習データ5万件の中に100件のみ含まれるポイズンデータの候補を約550件まで絞り込むことができる.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。