跳转至

Improving Sustainability of Adversarial Examples in Class-Incremental Learning

一句话总结

提出SAE框架解决类增量学习(CIL)中对抗样本因域漂移而失效的问题,通过语义校正模块(CLIP+CIL模型联合引导)和过滤增强模块(去除语义混淆样本),使对抗样本在类别数增长9倍后仍保持攻击效果,平均攻击成功率提升31.28%。

研究背景与动机

  • 领域现状:当前对抗样本(AE)通常针对静态模型设计。然而随着CIL的广泛应用,模型不再静态——新类别数据的持续引入导致旧类别决策域发生显著漂移(domain drift)。
  • 核心痛点:实验显示仅增加30个新类(ResNet-32 on CIFAR-100),SOTA攻击的成功率就大幅下降。语义级攻击在增量超过30类后成功率降到20%以下。
  • 核心矛盾:域漂移改变了将输入移向目标域所需扰动的方向和幅度,导致旧AE要么攻击到错误类别,要么退化为良性噪声。仅靠初始CIL模型的梯度优化AE容易过拟合。
  • 切入角度:利用CLIP提供通用目标类语义"锚点",结合CIL模型梯度校正方向,同时过滤语义混淆样本。

方法详解

整体框架

SAE由两个核心模块组成:(1) 语义校正模块——CLIP通用语义 + CIL模型梯度联合引导扰动优化;(2) 过滤与增强模块——检测并移除含目标类混淆语义的样本,增强剩余样本多样性。生成的通用扰动delta可应用于CIL过程中任何更新后的黑盒模型。

关键设计

  1. CLIP语义增强(Semantic Correction Module核心)
  2. 利用POOD数据集(公开的分布外数据集,标签与目标类和CIL训练集不重叠)
  3. 用CLIP文本/图像编码器计算目标方向D_t、非目标方向D_nt和对抗方向D_adv
  4. 优化L_CLIP拉近对抗样本与目标类语义、推远与非目标类语义
  5. CLIP训练于数十亿图文对,其语义表示具有跨域通用性,作为抵抗域漂移的"锚点"

  6. CIL模型梯度校正

  7. 仅靠CLIP静态语义难以完全抵抗语义漂移,需要CIL初始模型f_1的梯度来校正
  8. 计算BCE损失:-log(p_yt) - sum log(1-p_ynt)
  9. CIL中知识蒸馏或正交投影保留了初始模型梯度的有效性——理论基础

  10. 过滤与增强模块(Filtering-and-Augmentation)

  11. 过滤:某些非目标类样本无意中包含目标类语义(如"自行车"图中含"道路")
  12. 利用f_1倒数第二层特征计算余弦相似度,超过阈值sigma的样本被过滤
  13. 增强:对保留样本施加随机旋转、缩放、平移和patch操作,防止语义过拟合

  14. 攻击者能力假设

  15. 可访问初始CIL模型和完整CIL标签集
  16. 无法访问CIL训练数据和训练过程
  17. 可使用公开POOD数据集和预训练CLIP模型

损失函数/训练策略

  • 总损失:L = L_CLIP + L_Surr,通过梯度下降迭代更新delta,每步裁剪到epsilon范围内
  • 对每个POOD样本类别y_p单独计算相似度并迭代优化
  • l-infinity范数约束确保扰动隐蔽性

实验关键数据

主实验表格(CIFAR-100,平均SASR across 10 target classes)

攻击方法 Finetune Replay MEMO DER iCaRL AVG
MIFGSM 7.29 13.41 21.71 36.85 17.94 21.64
GAKer 0.04 0.02 0.01 0.00 0.00 0.62
SAE(本文) 显著提升 显著提升 显著提升 显著提升 显著提升 +31.28%

消融实验表格

组件 贡献
仅L_CLIP 基础语义引导,但面对大域漂移不稳定
+ L_Surr(CIL校正) 显著提升可持续性,与CLIP互补
+ 过滤模块 去除混淆语义,减少波动
+ 增强模块 进一步提升泛化性,防止过拟合

关键发现

  • 类别增长9倍后SAE仍保持有效:平均攻击成功率比基线提升31.28%,而最强基线在3倍增长后已基本失效
  • GradCAM可视化:随CIL更新,基线方法的目标类贡献区域逐渐缩小,SAE保持稳定
  • CLIP语义锚点的关键作用:移除CLIP组件后可持续性大幅下降
  • CIL方法的差异性影响:知识蒸馏类方法(iCaRL、PodNet)保留更多旧模型信息,SAE对它们的攻击效果最佳

亮点与洞察

  • 问题定义的新颖性:首次系统研究对抗样本在增量学习场景下的"可持续性",是攻击和持续学习两个领域的重要交叉
  • CLIP作为语义锚点的巧妙利用:CLIP的跨域通用性天然适合作为抵抗域漂移的稳定参考
  • 攻击者假设的现实性:仅需初始模型和公开数据,不需要CIL训练数据或过程

局限性 / 可改进方向

  • 仅考虑定向攻击,非定向攻击在CIL下的可持续性未探讨
  • 如果目标域与CLIP训练分布差距大,语义锚点质量可能下降
  • 实验主要在CIFAR-100和ImageNet-100上,更大规模的可扩展性未验证
  • 防御者如果知道攻击利用CLIP语义,可能针对性防御

相关工作与启发

  • vs. 传统迁移攻击(MIFGSM、CleanSheet等):传统方法追求跨架构迁移性,未考虑CIL的域漂移;SAE利用通用语义抵抗时间维度的域漂移
  • vs. 语义级攻击(AIM、CGNC、GAKer):这些方法的语义绑定在静态模型上;SAE通过外部模型(CLIP)提供独立于CIL过程的稳定语义

评分

维度 评分 理由
新颖性 ⭐⭐⭐⭐ 增量学习+对抗可持续性的交叉问题定义新颖
技术深度 ⭐⭐⭐⭐ 双模块互补设计合理,理论支撑充分
实验完整度 ⭐⭐⭐⭐ 9种CIL方法x多种攻击基线,消融充分
实用价值 ⭐⭐⭐ 场景较特定,但对安全关键应用有重要警示