Adversarial Attention Perturbations for Large Object Detection Transformers¶

会议: ICCV 2025
arXiv: 2508.02987
代码: 有（论文注明 "Code is available at: Link"）
领域: 目标检测/对抗安全
关键词: 对抗攻击, 检测Transformer, 可学习注意力, 目标检测, 对抗鲁棒性

一句话总结¶

本文提出 AFOG（Attention-Focused Offensive Gradient），一种架构无关的对抗攻击方法，通过可学习注意力机制聚焦扰动到图像脆弱区域，仅需 10 次迭代即可在视觉不可察觉的扰动下将 12 种检测 Transformer 的 mAP 最高降低 37.8 倍，同时在 CNN 检测器上也优于现有方法。

研究背景与动机¶

基于 Transformer 的目标检测器（如 DETR、Swin、EVA 等）凭借注意力机制能捕获长距离依赖，在目标检测任务上显著超越传统 CNN 检测器（Faster R-CNN、SSD、YOLOv3）。随着这些大型检测 Transformer 的广泛部署，理解其在对抗扰动下的脆弱性变得至关重要。

然而，现有对抗攻击方法对检测 Transformer 效果不佳：（1）代理模型攻击（黑盒）如 UEA、RAD 在代理模型与受害者架构不同时迁移性差；（2）受害者模型攻击（白盒）如 EBAD、OATB 专为特定架构设计，AttentionFool 仅针对自注意力，无法攻击 CNN 检测器。核心矛盾：需要一种既能有效攻击 Transformer 又能攻击 CNN 的统一攻击框架。

AFOG 的关键洞察：受 Transformer 自注意力的启发，设计一个可学习的"对抗注意力图"来动态发现图像中最脆弱的像素区域，并且这种注意力机制与受害模型的内部架构无关——无论是 Transformer 还是 CNN 都适用。

方法详解¶

整体框架¶

AFOG 采用迭代投影梯度下降（PGD）框架。在每次迭代中：（1）将扰动图像前向传播通过受害模型；（2）计算攻击损失（边界框损失 + 分类损失）；（3）通过反向传播同时更新注意力图 \(A\) 和扰动图 \(P\)；（4）通过 Hadamard 积 \(x_{adv} = \Pi_{x,\epsilon}(x + A \odot P)\) 生成对抗样本，投影到以原始图像为中心、\(\epsilon\) 为半径的超球面上。

关键设计¶

可学习对抗注意力机制:
- 功能：学习一个逐像素的注意力图 \(A\)，对扰动进行空间上的放大或抑制
- 核心思路：注意力图 \(A\) 初始化为全 1，扰动图 \(P\) 初始化为 \([-\epsilon, \epsilon]\) 均匀分布。对抗样本通过 \(x_{adv_k} = \Pi_{x,\epsilon}(x + A_k \odot P_k)\) 生成。\(A\) 和 \(P\) 分别通过攻击损失的梯度更新：
  - \(A_{k+1} \leftarrow A_k + \alpha_A \cdot \sigma[\frac{\partial \mathcal{L}_{AFOG}}{\partial A_k}]\)（\(\sigma\) 为归一化函数）
  - \(P_{k+1} \leftarrow P_k + \alpha_P \cdot \Gamma[\frac{\partial \mathcal{L}_{AFOG}}{\partial P_k}]\)（\(\Gamma\) 为符号函数）
- 设计动机：与静态注意力（如基于前景/背景先验）不同，AFOG 的注意力在攻击迭代中动态更新，能发现反直觉的脆弱区域（如船上方的天空）。早期迭代注意力集中在主要目标上，后期扩展到周围区域
双损失攻击优化:
- 功能：通过同时破坏边界框预测和分类预测来最大化攻击效果
- 核心思路：攻击损失分为两部分：
  - 边界框损失：\(\mathcal{L}_{bbox} = \sum_{i=1}^{N_x}[f_\vartheta(x, o_i) - f_\vartheta(x_{adv}, o_{adv_i})]\)
  - 分类损失：\(\mathcal{L}_{cls} = \sum_{i=1}^{N_x}[f_\vartheta(x, c_i) - f_\vartheta(x_{adv}, c_{adv_i})]\)
  - \(\mathcal{L}_{AFOG} = \mathcal{L}_{bbox} + \mathcal{L}_{cls}\) 攻击冻结模型参数 \(\vartheta\)，仅通过梯度更新 \(A\) 和 \(P\)
- 设计动机：同时攻击定位和分类两个子任务，既压制正确预测的置信度，又提升错误预测的置信度，双重打击更有效
特殊攻击模式（AFOG-V 和 AFOG-F）:
- 功能：AFOG-V（消失攻击）使所有检测结果消失；AFOG-F（伪造攻击）产生大量虚假检测
- 核心思路：AFOG-V 将良性预测替换为空集作为"ground truth"，损失取负号：\(\mathcal{L}_{AFOG_V} = -\mathcal{L}_{bbox}(x_{adv}, \varnothing) - \mathcal{L}_{cls}(x_{adv}, \varnothing)\)。AFOG-F 移除置信度阈值，将所有低置信预测设为 1.0 作为"ground truth"
- 设计动机：探索对抗扰动对不同检测行为的影响——消失攻击测试 objectness 检测的鲁棒性，伪造攻击测试框预测的鲁棒性

损失函数 / 训练策略¶

攻击超参数：最大扰动预算 \(\epsilon = 0.031\)（在 [0,1] 归一化图像上），迭代次数 \(T = 10\)，注意力学习率 \(\alpha_A\) 和扰动学习率 \(\alpha_P\) 分别设置。所有模型统一使用 10 次迭代。

实验关键数据¶

主实验：AFOG 在 12 种检测 Transformer 上的攻击效果¶

模型	参数量(M)	Benign mAP	AFOG	AFOG-V	AFOG-F	降幅倍数
DETR-R50	39.8	42.1	4.1	4.5	9.8	10.3×
DETR-R101	76.0	43.5	5.2	5.1	11.3	8.4×
ViTDet	108.1	54.9	3.8	0.9	2.8	14.4×
Swin-L	217.2	56.8	7.3	2.4	8.6	7.8×
AlignDETR	47.6	51.4	18.1	1.6	1.4	37.8×
EVA	1037.2	62.1	12.2	4.1	8.7	5.1×

消融实验：可学习注意力的贡献¶

对比项	DETR-R50	Swin-L	InternImage	平均(12模型)
AFOG w/o attention	更高 mAP	更高 mAP	更高 mAP	-
AFOG w/ attention	4.1	7.3	7.3	平均提升 15.1%
最大提升	-	-	30.6% (InternImage)	-

与现有方法对比（DETR-R50）：

攻击方法	类型	扰动预算	迭代数	DETR-R50 mAP	Swin mAP
GARSDC	代理	0.05	3000+	6.0	-
AttentionFool	受害	-	10-150	21.0	-
EBAD	受害	0.039	10	34.9	-
DBA	受害	-	50	-	56.7
AFOG	受害	0.031	10	4.1	7.3

关键发现¶

AFOG 使用最小的扰动预算（0.031）和最少的迭代次数（10），在 DETR-R50 和 Swin-L 上均大幅超越所有现有攻击
在 Swin-L 上相比次强攻击提升 82.7%以上（DBA: 56.7 → AFOG: 7.3）
AFOG-V（消失攻击）在 11/12 个 Transformer 上比通用 AFOG 更强
可学习注意力机制平均提升 15.1%，最高在 InternImage 上提升 30.6%
在 CNN 检测器上同样有效：FRCNN 上 mAP 从 67.37 降至 2.38，优于所有对比方法
攻击的隐蔽性优秀：SSIM > 0.83，L2 norm ≈ 0.032，视觉不可察觉

亮点与洞察¶

架构无关的统一攻击：同一方法同时有效攻击 Transformer 和 CNN 检测器，填补了领域空白
对抗注意力 vs 模型自注意力的分析非常深入：展示了攻击如何逐步破坏模型自注意力的关联结构，造成"灾难性遗忘"
失败案例分析有价值：注意力未能聚焦到前景目标时攻击失败，揭示了方法的局限

局限与展望¶

白盒攻击假设（需要访问模型参数和梯度），实际部署场景受限
失败案例表明注意力初始化可能影响攻击，如何更好地引导注意力聚焦是改进方向
未探索防御策略（如对抗训练）下的攻击效果
10 次迭代在部分大型模型（如 EVA）上可能不够充分

评分¶

新颖性: ⭐⭐⭐⭐ 可学习对抗注意力的概念新颖，架构无关设计实用
实验充分度: ⭐⭐⭐⭐⭐ 12种Transformer + 3种CNN，11种基线对比，全面的隐蔽性分析和失败案例分析
写作质量: ⭐⭐⭐⭐ 公式推导清晰，可视化丰富（注意力图演化、自注意力破坏过程）
价值: ⭐⭐⭐⭐ 为检测模型鲁棒性研究提供了有效的测试工具