Boosting Adversarial Transferability with Spatial Adversarial Alignment¶
会议: NEURIPS2025
arXiv: 2501.01015
代码: 待确认
领域: ai_safety
关键词: adversarial transferability, model alignment, cross-architecture attack, spatial features, adversarial features
一句话总结¶
提出 Spatial Adversarial Alignment (SAA),通过空间感知对齐和对抗感知对齐两个模块微调代理模型,使其特征与见证模型对齐,从而显著提升对抗样本的跨架构迁移性(CNN→ViT 迁移率提升 25-39%)。
背景与动机¶
对抗样本的可迁移性是黑盒攻击的核心:在无法获取目标模型参数和架构的前提下,攻击者只能利用代理模型(surrogate model)生成对抗样本,再借助迁移性攻击未知的目标模型。现有提升迁移性的方法包括高级优化(MI、NI 等)、数据增强(DI、TI、SSA 等)和模型修改(SGM、LinBP 等),但在跨架构场景(如 CNN→ViT)下效果仍然有限。
已有的 Model Alignment (MA) 方法仅对齐模型的最终预测 logits,存在两个关键不足:
- 空间特征未对齐:CNN 和 ViT 的中间层特征在语义层级和空间结构上差异很大,仅靠最终输出约束难以让中间特征趋同
- 对抗特征未考虑:对抗样本具有与干净样本不同的特征分布,跨模型的对抗特征相似性同样重要,但 MA 忽略了这一点
核心问题¶
如何让代理模型学到与不同架构模型共享的空间特征和对抗特征,使生成的对抗扰动可有效迁移到 CNN 和 ViT 等不同架构上?
方法详解¶
整体框架¶
SAA 利用一个见证模型(witness model)微调代理模型,包含两个核心模块:
1. Spatial-aware Alignment(空间感知对齐)¶
全局对齐:最小化代理模型和见证模型最终输出(logits)之间的 KL 散度:
局部对齐:将 CNN 最后卷积层特征图和 ViT 的 patch token embeddings 都变换为 \((B, C, H, W)\) 形状,按空间位置逐一对齐。用见证模型的局部伪标签监督代理模型的局部特征:
空间对齐总损失:\(\mathcal{L}_{SA} = \mathcal{L}_{global} + \gamma \cdot \mathcal{L}_{local}\),其中 \(\gamma=0.2\)。
2. Adversarial-aware Alignment(对抗感知对齐)¶
引入自对抗策略:利用代理模型梯度迭代生成对抗样本,使代理模型输出偏离见证模型的全局特征:
然后在生成的对抗样本上也执行全局+局部对齐:
3. 总优化目标¶
超参数设置:\(\gamma=0.2\),\(\omega=0.02\),\(\kappa=0.02\)。仅用原始训练数据微调 1 个 epoch,SGD 优化器(momentum=0.9)。
实验关键数据¶
在 ImageNet-compatible 数据集上评估,目标模型包括 6 个 CNN(Res18/50/101、VGG19、DN121、Inc-v3)和 4 个 ViT(ViT-B、Swin-B、PVT-v2、MobViT)。
与 MA 对比(代理模型 Res50,MI 攻击)¶
| 见证模型 | MA 平均 ASR | SAA 平均 ASR | SAA 在 ViT 上的提升 |
|---|---|---|---|
| Res50 | 45.8% | 58.8% | +39.1% |
| DN121 | 63.9% | 75.8% | +31.3% |
| ViT-B | 53.5% | 63.9% | +25.5% |
| Swin-B | 44.4% | 57.5% | +37.7% |
SAA 叠加现有攻击方法(代理 Res50,见证 ViT-B)¶
| 攻击方法 | 原始 Avg ASR | +SAA Avg ASR | 提升 |
|---|---|---|---|
| MI | 42.2% | 63.9% | +21.7% |
| DI-MI | 55.4% | 78.5% | +23.1% |
| SSA-MI | 78.5% | 85.1% | +6.6% |
特征相似度验证¶
代理 Res50 与见证 ViT-B 之间的全局特征余弦相似度:对齐前 0.0533 → 对齐后 0.1408(干净图像),提升 164%。
亮点¶
- 首次揭示空间特征和对抗特征对跨架构迁移性的重要性,为模型对齐提供了新视角
- 局部对齐设计巧妙:将 CNN 特征图和 ViT patch embedding 统一映射到相同空间尺度再逐位置对齐,弥合了架构差异
- 即插即用:SAA 仅需微调代理模型 1 个 epoch,可无缝叠加到 MI、DI、TI、SSA 等主流迁移攻击上
- 跨架构提升显著:CNN→ViT 迁移率提升 25-39%,远超仅对齐 logits 的 MA 方法
局限性 / 可改进方向¶
- 依赖见证模型选择:不同见证模型对最终迁移性影响差异较大,论文提供了经验指导但缺乏理论保证
- 仅考虑分类任务:未验证在检测、分割等下游任务上的效果
- 微调开销:虽然仅需 1 epoch,但对 ImageNet 规模数据集的微调仍有一定计算成本
- 防御场景缺乏:仅在标准模型上评估,缺少对对抗训练模型或防御方法的攻击评估
- 局部对齐的尺度选择(\(H \times W\))对不同架构组合的敏感性未深入分析
与相关工作的对比¶
| 方法类别 | 代表方法 | 与 SAA 的区别 |
|---|---|---|
| 优化类 | MI, NI, VMI | 仅优化梯度,不修改模型;SAA 微调模型本身 |
| 增强类 | DI, TI, SSA | 输入变换减少过拟合;与 SAA 正交可叠加 |
| 模型修改类 | SGM, LinBP | 调整梯度传播路径;不涉及跨模型对齐 |
| 对齐类 | MA | 仅全局 logits 对齐;SAA 增加局部空间+对抗特征对齐 |
启发与关联¶
- 空间对齐的思路可迁移到知识蒸馏场景:逐位置的特征对齐比仅对齐最终输出更有效
- 自对抗策略(在对齐过程中使用对抗样本)对对抗鲁棒性研究也有启发:训练时考虑对抗特征可能提升模型泛化能力
- 跨架构的特征对齐方法有望应用于模型融合、联邦学习等需要不同架构协同的场景
评分¶
- 新颖性: 4/5(局部空间对齐+对抗感知对齐的组合是新贡献)
- 实验充分度: 4/5(10 个模型覆盖 CNN 和 ViT,叠加多种攻击方法,消融完整)
- 写作质量: 4/5(结构清晰,可视化分析充分)
- 价值: 4/5(对对抗迁移性研究有实际推动,跨架构攻击提升显著)