Self-Examination Mechanism: 説明可能AIを用いた敵対的攻撃に対する軽量な防御機構

末神 奏宙

09:40 〜 10:00

[2A1-GS-2-03] Self-Examination Mechanism: 説明可能AIを用いた敵対的攻撃に対する軽量な防御機構

〇末神奏宙¹、小栗悠太郎¹、趙在瀛¹、加賀谷湧¹、向井皇喜¹、吉田舜¹、琛付¹、山崎俊彦¹ (1. 東京大学)

キーワード：敵対的サンプル、説明可能AI、画像分類

深層学習をベースにした画像分類モデルには、敵対的サンプル(adversarial examples:AE)を誤分類するという脆弱性がある。既存の防御手法はAEに対する分類精度を改善していたが、摂動が付与されていない正常な画像に対しての分類精度が悪化する。この問題を解決するために、我々はself-examination mechanismという新たな防御機構を提案する。本手法では、最初に入力画像を分類した後、SHapley Additive exPlanations(SHAP)という説明可能AIの手法を用いて分類モデルの推論過程を検証し、異常ならばSHAPの出力に基づいて再度分類を行う。よって、正常な画像の分類精度を大きく下げることなく、誤分類を防ぐことができる。実際に、CIFAR10を学習したResNet及びWideResNetに提案手法を適用した結果、AEに対する精度が改善し、正常な画像に対する精度はほとんど悪化しないことを確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2A1-GS-2] 機械学習：進化計算・マルチエージェント・XAI他

[2A1-GS-2-03] Self-Examination Mechanism: 説明可能AIを用いた敵対的攻撃に対する軽量な防御機構

パスワード