Improving Sustainability of Adversarial Examples in Class-Incremental Learning¶
一句话总结¶
提出SAE框架解决类增量学习(CIL)中对抗样本因域漂移而失效的问题,通过语义校正模块(CLIP+CIL模型联合引导)和过滤增强模块(去除语义混淆样本),使对抗样本在类别数增长9倍后仍保持攻击效果,平均攻击成功率提升31.28%。
研究背景与动机¶
- 领域现状:当前对抗样本(AE)通常针对静态模型设计。然而随着CIL的广泛应用,模型不再静态——新类别数据的持续引入导致旧类别决策域发生显著漂移(domain drift)。
- 核心痛点:实验显示仅增加30个新类(ResNet-32 on CIFAR-100),SOTA攻击的成功率就大幅下降。语义级攻击在增量超过30类后成功率降到20%以下。
- 核心矛盾:域漂移改变了将输入移向目标域所需扰动的方向和幅度,导致旧AE要么攻击到错误类别,要么退化为良性噪声。仅靠初始CIL模型的梯度优化AE容易过拟合。
- 切入角度:利用CLIP提供通用目标类语义"锚点",结合CIL模型梯度校正方向,同时过滤语义混淆样本。
方法详解¶
整体框架¶
SAE由两个核心模块组成:(1) 语义校正模块——CLIP通用语义 + CIL模型梯度联合引导扰动优化;(2) 过滤与增强模块——检测并移除含目标类混淆语义的样本,增强剩余样本多样性。生成的通用扰动delta可应用于CIL过程中任何更新后的黑盒模型。
关键设计¶
- CLIP语义增强(Semantic Correction Module核心)
- 利用POOD数据集(公开的分布外数据集,标签与目标类和CIL训练集不重叠)
- 用CLIP文本/图像编码器计算目标方向D_t、非目标方向D_nt和对抗方向D_adv
- 优化L_CLIP拉近对抗样本与目标类语义、推远与非目标类语义
-
CLIP训练于数十亿图文对,其语义表示具有跨域通用性,作为抵抗域漂移的"锚点"
-
CIL模型梯度校正
- 仅靠CLIP静态语义难以完全抵抗语义漂移,需要CIL初始模型f_1的梯度来校正
- 计算BCE损失:-log(p_yt) - sum log(1-p_ynt)
-
CIL中知识蒸馏或正交投影保留了初始模型梯度的有效性——理论基础
-
过滤与增强模块(Filtering-and-Augmentation)
- 过滤:某些非目标类样本无意中包含目标类语义(如"自行车"图中含"道路")
- 利用f_1倒数第二层特征计算余弦相似度,超过阈值sigma的样本被过滤
-
增强:对保留样本施加随机旋转、缩放、平移和patch操作,防止语义过拟合
-
攻击者能力假设
- 可访问初始CIL模型和完整CIL标签集
- 无法访问CIL训练数据和训练过程
- 可使用公开POOD数据集和预训练CLIP模型
损失函数/训练策略¶
- 总损失:L = L_CLIP + L_Surr,通过梯度下降迭代更新delta,每步裁剪到epsilon范围内
- 对每个POOD样本类别y_p单独计算相似度并迭代优化
- l-infinity范数约束确保扰动隐蔽性
实验关键数据¶
主实验表格(CIFAR-100,平均SASR across 10 target classes)¶
| 攻击方法 | Finetune | Replay | MEMO | DER | iCaRL | AVG |
|---|---|---|---|---|---|---|
| MIFGSM | 7.29 | 13.41 | 21.71 | 36.85 | 17.94 | 21.64 |
| GAKer | 0.04 | 0.02 | 0.01 | 0.00 | 0.00 | 0.62 |
| SAE(本文) | 显著提升 | 显著提升 | 显著提升 | 显著提升 | 显著提升 | +31.28% |
消融实验表格¶
| 组件 | 贡献 |
|---|---|
| 仅L_CLIP | 基础语义引导,但面对大域漂移不稳定 |
| + L_Surr(CIL校正) | 显著提升可持续性,与CLIP互补 |
| + 过滤模块 | 去除混淆语义,减少波动 |
| + 增强模块 | 进一步提升泛化性,防止过拟合 |
关键发现¶
- 类别增长9倍后SAE仍保持有效:平均攻击成功率比基线提升31.28%,而最强基线在3倍增长后已基本失效
- GradCAM可视化:随CIL更新,基线方法的目标类贡献区域逐渐缩小,SAE保持稳定
- CLIP语义锚点的关键作用:移除CLIP组件后可持续性大幅下降
- CIL方法的差异性影响:知识蒸馏类方法(iCaRL、PodNet)保留更多旧模型信息,SAE对它们的攻击效果最佳
亮点与洞察¶
- 问题定义的新颖性:首次系统研究对抗样本在增量学习场景下的"可持续性",是攻击和持续学习两个领域的重要交叉
- CLIP作为语义锚点的巧妙利用:CLIP的跨域通用性天然适合作为抵抗域漂移的稳定参考
- 攻击者假设的现实性:仅需初始模型和公开数据,不需要CIL训练数据或过程
局限性 / 可改进方向¶
- 仅考虑定向攻击,非定向攻击在CIL下的可持续性未探讨
- 如果目标域与CLIP训练分布差距大,语义锚点质量可能下降
- 实验主要在CIFAR-100和ImageNet-100上,更大规模的可扩展性未验证
- 防御者如果知道攻击利用CLIP语义,可能针对性防御
相关工作与启发¶
- vs. 传统迁移攻击(MIFGSM、CleanSheet等):传统方法追求跨架构迁移性,未考虑CIL的域漂移;SAE利用通用语义抵抗时间维度的域漂移
- vs. 语义级攻击(AIM、CGNC、GAKer):这些方法的语义绑定在静态模型上;SAE通过外部模型(CLIP)提供独立于CIL过程的稳定语义
评分¶
| 维度 | 评分 | 理由 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 增量学习+对抗可持续性的交叉问题定义新颖 |
| 技术深度 | ⭐⭐⭐⭐ | 双模块互补设计合理,理论支撑充分 |
| 实验完整度 | ⭐⭐⭐⭐ | 9种CIL方法x多种攻击基线,消融充分 |
| 实用价值 | ⭐⭐⭐ | 场景较特定,但对安全关键应用有重要警示 |