Improving Black-Box Generative Attacks via Generator Semantic Consistency¶

会议: ICLR 2026
arXiv: 2506.18248
代码: 待发布
领域: 对抗攻击 / 对抗鲁棒性
关键词: 生成式对抗攻击, 黑盒可迁移性, Mean Teacher, 语义一致性, 特征蒸馏

一句话总结¶

通过分析生成器中间层特征的语义退化现象，提出基于 Mean Teacher 的语义结构感知框架，在生成器早期层进行自特征蒸馏以保持语义一致性，从而增强对抗样本在跨模型、跨域、跨任务场景中的可迁移性。

研究背景与动机¶

问题背景¶

生成式对抗攻击训练一个扰动生成器，在白盒代理模型上学习后，将生成的扰动应用到未见过的黑盒受害模型上。与迭代攻击相比，生成式方法具有更高的推理效率、可扩展性和可迁移性。然而，现有方法主要将生成器视为黑盒，仅优化端到端指标，忽略了生成器内部如何表征语义信息（物体边界、粗糙形状等）。

关键观察¶

作者对训练后的生成器进行了系统性分析，将生成器的中间激活特征划分为早期（early）、中期（mid）和晚期（late）三个阶段：

早期中间块：始终保留输入图像的粗糙语义结构（物体轮廓、形状先验）
中期和晚期中间块：随着扰动累积，语义线索逐渐退化和散失

这意味着如果能够在早期阶段保持语义完整性，后续阶段的扰动就能更好地聚焦于物体显著区域，从而增强可迁移性。

核心问题¶

在生成器的哪个阶段，语义线索在对抗合成过程中退化？
生成器的哪些中间块对可迁移性影响最大？

方法详解¶

整体框架¶

框架基于 Student-Teacher 架构，包含以下组件： - Student 生成器 $\mathcal{G}_\theta$：通过梯度下降训练，产生对抗扰动 - Teacher 生成器 $\mathcal{G}_{\theta'}$：通过 EMA 更新权重，提供时间平滑的特征参考 - 冻结的代理模型：提供对抗监督信号 - 扰动投影器 $\mathcal{P}$：确保扰动满足 $\ell_\infty$ 约束

关键设计¶

Mean Teacher 特征平滑：维护两个生成器——Student（梯度下降训练）和 Teacher（EMA 更新）。Teacher 的参数通过指数移动平均更新：$\theta' \leftarrow \eta\theta + (1-\eta)\theta$（$\eta=0.999$）。EMA 更新平滑了高频扰动伪影，增强了 Teacher 中间特征图的语义一致性和稳定性，为 Student 提供可靠的语义参考。
自特征蒸馏（Self-Feature Distillation）：在生成器的早期块（$L_{\text{early}}=\{1,2\}$）上，通过铰链损失（hinge-based loss）强制 Student 的早期激活与 Teacher 的语义丰富特征对齐：

\[\mathcal{L}_{\text{distill}} = \sum_{\ell=1}^{L_{\text{early}}} \mathcal{W}_{\text{distill}} \max(0, \tau - \cos(\mathbf{g}_s^{(\ell)}, \mathbf{g}_t^{(\ell)}))\]

其中 $\cos(\cdot,\cdot)$ 是余弦相似度，$\tau=0.6$ 是相似度阈值，$\mathcal{W}_{\text{distill}}$ 是可学习的softmax权重参数。

新评估指标 ACR：提出 Accidental Correction Rate（偶然纠正率），捕获攻击过程中意外被纠正的预测，提供更全面的攻击效能评估。

损失函数 / 训练策略¶

对抗损失采用代理特征空间中的余弦相似度： $$\mathcal{L}_{\text{adv}} = \cos(\mathcal{F}_k(x), \mathcal{F}_k(x^{adv}))$$

最终损失为： $$\mathcal{L} = \mathcal{L}_{\text{adv}} + \lambda_{\text{distill}} \cdot \mathcal{L}_{\text{distill}}$$

其中 $\lambda_{\text{distill}}=0.7$，使用 VGG-16 的第16层（Maxpooling.3）作为代理特征，在 ImageNet-1K 上训练，扰动预算 $\epsilon=10$。

实验关键数据¶

主实验（跨模型迁移）¶

本方法作为即插即用模块，可叠加到任何现有生成式攻击基线上：

基线方法	跨模型 ASR 提升	跨域 ASR 提升	跨任务改进
BIA (基线)	显著提升	显著提升	一致改进
CDA + Ours	✓	✓	✓
LTP + Ours	✓	✓	✓
GAMA + Ours	✓	✓	✓
FACL + Ours	✓	✓	✓
PDCL + Ours	✓	✓	✓

跨域迁移（CUB-200、Stanford Cars、FGVC Aircraft）¶

以 BIA 为基线，使用 VGG-19 代理时： - 准确率下降 10.05%p（越低越好） - ASR 提升 11.20%p - FR 提升 10.39%p - ACR 下降 2.26%p（越低越好）

消融实验¶

配置	关键指标	说明
早期块蒸馏 (1,2)	最优	早期块保留最多语义信息
中期块蒸馏	较差	语义已部分退化
晚期块蒸馏	最差	语义严重退化
τ=0.6	最优	平衡攻击强度
Without Mean Teacher	下降	缺乏时间平滑参考

关键发现¶

方法在所有四个跨设定（跨模型、跨域、跨任务SS、跨任务OD）上都有一致提升
在对抗净化防御（NRP）下仍保持鲁棒性
感知质量（PSNR/SSIM/LPIPS）未受损害，甚至略有改善
多次随机种子实验表明训练稳定性好（标准差小）
在CLIP零样本分类上的表现则因基线而异

亮点与洞察¶

生成器内部语义分析：首次系统性地分析了对抗扰动生成器中间层特征的语义退化现象，发现早期块是保持语义完整性的关键
即插即用设计：作为通用框架，可以叠加到任何现有的生成式对抗攻击方法上，带来一致的性能提升
ACR 指标：揭示了现有评估协议的不足——传统指标忽略了"偶然纠正"（攻击后预测反而变正确）的情况
差异图分析：可视化证实了本方法在残差块中生成的对抗噪声更集中在物体语义结构上

局限与展望¶

方法的效果依赖于生成器架构——如果早期中间块特征缺乏丰富语义线索（如U-Net等不同架构），蒸馏机制的改进有限
在图像分类之外的任务（检测、分割）上的可迁移性提升有限，表明分类导向的代理模型难以充分对齐其他任务的特征表示
本方法聚焦于生成器内部语义保持，与显式针对"良性-对抗差异"的方法原理不同，两者可互补使用

评分¶

新颖性: ⭐⭐⭐⭐ — 生成器语义退化分析视角新颖，但Mean Teacher本身非新技术
实验充分度: ⭐⭐⭐⭐⭐ — 跨模型/域/任务全面评估，消融充分，含净化防御/零样本测试
写作质量: ⭐⭐⭐⭐ — 动机清晰，可视化丰富
价值: ⭐⭐⭐⭐ — 即插即用、一致提升，对对抗鲁棒性研究有参考价值