Boosting Adversarial Transferability with Spatial Adversarial Alignment¶

会议: NEURIPS2025
arXiv: 2501.01015
代码: 待确认
领域: ai_safety
关键词: adversarial transferability, model alignment, cross-architecture attack, spatial features, adversarial features

一句话总结¶

提出 Spatial Adversarial Alignment (SAA)，通过空间感知对齐和对抗感知对齐两个模块微调代理模型，使其特征与见证模型对齐，从而显著提升对抗样本的跨架构迁移性（CNN→ViT 迁移率提升 25-39%）。

背景与动机¶

对抗样本的可迁移性是黑盒攻击的核心：在无法获取目标模型参数和架构的前提下，攻击者只能利用代理模型（surrogate model）生成对抗样本，再借助迁移性攻击未知的目标模型。现有提升迁移性的方法包括高级优化（MI、NI 等）、数据增强（DI、TI、SSA 等）和模型修改（SGM、LinBP 等），但在跨架构场景（如 CNN→ViT）下效果仍然有限。

已有的 Model Alignment (MA) 方法仅对齐模型的最终预测 logits，存在两个关键不足：

空间特征未对齐：CNN 和 ViT 的中间层特征在语义层级和空间结构上差异很大，仅靠最终输出约束难以让中间特征趋同
对抗特征未考虑：对抗样本具有与干净样本不同的特征分布，跨模型的对抗特征相似性同样重要，但 MA 忽略了这一点

核心问题¶

如何让代理模型学到与不同架构模型共享的空间特征和对抗特征，使生成的对抗扰动可有效迁移到 CNN 和 ViT 等不同架构上？

方法详解¶

整体框架¶

SAA 利用一个见证模型（witness model）微调代理模型，包含两个核心模块：

1. Spatial-aware Alignment（空间感知对齐）¶

全局对齐：最小化代理模型和见证模型最终输出（logits）之间的 KL 散度：

\[\mathcal{L}_{global}(x;\theta_s) = D_{KL}(f_{\theta_s}(x), f_{\theta_w}(x))\]

局部对齐：将 CNN 最后卷积层特征图和 ViT 的 patch token embeddings 都变换为 \((B, C, H, W)\) 形状，按空间位置逐一对齐。用见证模型的局部伪标签监督代理模型的局部特征：

\[\mathcal{L}_{local}(x;\theta_s) = \frac{1}{HW}\sum_{q=1}^{HW} D_{CE}(z_{\theta_s}^{[q]}(x), \hat{y}_{\theta_w}^{[q]})\]

空间对齐总损失：\(\mathcal{L}_{SA} = \mathcal{L}_{global} + \gamma \cdot \mathcal{L}_{local}\)，其中 \(\gamma=0.2\)。

2. Adversarial-aware Alignment（对抗感知对齐）¶

引入自对抗策略：利用代理模型梯度迭代生成对抗样本，使代理模型输出偏离见证模型的全局特征：

\[x_{adv}^{(t+1)} = \Pi_{x,\epsilon}(x_{adv}^{(t)} + \alpha \cdot \text{sign}(\nabla_x D_{KL}(f_{\theta_s}(x_{adv}^{(t)}), f_{\theta_w}(x))))\]

然后在生成的对抗样本上也执行全局+局部对齐：

\[\mathcal{L}_{AA}(x_{adv};\theta_s) = \mathcal{L}_{global}(x_{adv};\theta_s) + \omega \cdot \mathcal{L}_{local}(x_{adv};\theta_s)\]

3. 总优化目标¶

\[\mathcal{L}_{SAA} = \mathcal{L}_{SA}(x;\theta_s) + \kappa \cdot \mathcal{L}_{AA}(x_{adv};\theta_s)\]

超参数设置：\(\gamma=0.2\)，\(\omega=0.02\)，\(\kappa=0.02\)。仅用原始训练数据微调 1 个 epoch，SGD 优化器（momentum=0.9）。

实验关键数据¶

在 ImageNet-compatible 数据集上评估，目标模型包括 6 个 CNN（Res18/50/101、VGG19、DN121、Inc-v3）和 4 个 ViT（ViT-B、Swin-B、PVT-v2、MobViT）。

与 MA 对比（代理模型 Res50，MI 攻击）¶

见证模型	MA 平均 ASR	SAA 平均 ASR	SAA 在 ViT 上的提升
Res50	45.8%	58.8%	+39.1%
DN121	63.9%	75.8%	+31.3%
ViT-B	53.5%	63.9%	+25.5%
Swin-B	44.4%	57.5%	+37.7%

SAA 叠加现有攻击方法（代理 Res50，见证 ViT-B）¶

攻击方法	原始 Avg ASR	+SAA Avg ASR	提升
MI	42.2%	63.9%	+21.7%
DI-MI	55.4%	78.5%	+23.1%
SSA-MI	78.5%	85.1%	+6.6%

特征相似度验证¶

代理 Res50 与见证 ViT-B 之间的全局特征余弦相似度：对齐前 0.0533 → 对齐后 0.1408（干净图像），提升 164%。

亮点¶

首次揭示空间特征和对抗特征对跨架构迁移性的重要性，为模型对齐提供了新视角
局部对齐设计巧妙：将 CNN 特征图和 ViT patch embedding 统一映射到相同空间尺度再逐位置对齐，弥合了架构差异
即插即用：SAA 仅需微调代理模型 1 个 epoch，可无缝叠加到 MI、DI、TI、SSA 等主流迁移攻击上
跨架构提升显著：CNN→ViT 迁移率提升 25-39%，远超仅对齐 logits 的 MA 方法

局限性 / 可改进方向¶

依赖见证模型选择：不同见证模型对最终迁移性影响差异较大，论文提供了经验指导但缺乏理论保证
仅考虑分类任务：未验证在检测、分割等下游任务上的效果
微调开销：虽然仅需 1 epoch，但对 ImageNet 规模数据集的微调仍有一定计算成本
防御场景缺乏：仅在标准模型上评估，缺少对对抗训练模型或防御方法的攻击评估
局部对齐的尺度选择（\(H \times W\)）对不同架构组合的敏感性未深入分析

与相关工作的对比¶

方法类别	代表方法	与 SAA 的区别
优化类	MI, NI, VMI	仅优化梯度，不修改模型；SAA 微调模型本身
增强类	DI, TI, SSA	输入变换减少过拟合；与 SAA 正交可叠加
模型修改类	SGM, LinBP	调整梯度传播路径；不涉及跨模型对齐
对齐类	MA	仅全局 logits 对齐；SAA 增加局部空间+对抗特征对齐

启发与关联¶

空间对齐的思路可迁移到知识蒸馏场景：逐位置的特征对齐比仅对齐最终输出更有效
自对抗策略（在对齐过程中使用对抗样本）对对抗鲁棒性研究也有启发：训练时考虑对抗特征可能提升模型泛化能力
跨架构的特征对齐方法有望应用于模型融合、联邦学习等需要不同架构协同的场景

评分¶

新颖性: 4/5（局部空间对齐+对抗感知对齐的组合是新贡献）
实验充分度: 4/5（10 个模型覆盖 CNN 和 ViT，叠加多种攻击方法，消融完整）
写作质量: 4/5（结构清晰，可视化分析充分）
价值: 4/5（对对抗迁移性研究有实际推动，跨架构攻击提升显著）