09:40 〜 10:00
[3L1-GS-11-03] コンセプトをトリガーとしたステルス性の高いバックドア攻撃
キーワード:ポイズニング攻撃、バックドア攻撃、AI信頼性
バックドア攻撃は機械学習モデルに対する攻撃の一種である.バックドア攻撃を受けたモデルは,入力が特定のトリガー(e.g.ノイズや模様)を含む場合にその入力を誤ったクラスへと分類する.本論文では,機械学習モデルが陥る脆弱性を明らかにし,機械学習モデルのセキュリティを高める議論の発展を目的として,コンセプトをトリガーに用いたバックドア攻撃を提案する.コンセプトとはサンプル内に含まれる解釈可能な属性のことであり,例えば,顔画像において髪の色や笑顔かどうかはコンセプトである.既存研究のトリガーのほとんどはデジタル上で付加することを前提としているが,人工的に生成されたパターンは物理世界に出現しない.コンセプトは物理世界でも違和感なくトリガーとして付加される可能性がある.また,コンセプトをトリガーとした毒サンプルは見た目が自然でステルス性に優れる.実験では,提案手法の攻撃成功率や既存の防御手法への耐久性を評価することで,コンセプトがトリガーとして活用できることを実験的に示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。