Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling¶

会议: ICCV 2025
arXiv: 2511.00411
代码: https://github.com/anuin-cat/GGS
领域: AI安全 / 对抗攻击
关键词: 对抗迁移性, 梯度引导采样, 探索-利用平衡, 平坦极大值, 黑盒攻击

一句话总结¶

提出Gradient-Guided Sampling (GGS)内迭代采样策略，通过使用上一内迭代的梯度方向引导采样，在平衡Exploitation（攻击强度/损失极大值）和Exploration（跨模型泛化/平坦损失面）的困境中取得突破，在CNN/ViT/MLLM等多架构上显著超越现有迁移攻击方法。

研究背景与动机¶

领域现状：对抗迁移攻击在黑盒场景下至关重要——攻击者仅能接触替代模型，希望生成的对抗样本能骗过未知目标模型。近年来梯度方法、输入变换方法、平坦极大值方法不断发展
现有痛点：
- 传统动量方法(MI-FGSM)过度优先Exploitation——找到更高的损失极大值带来强攻击力，但损失面尖锐导致泛化差
- 近期内迭代采样方法(PGN, GRA)过度优先Exploration——通过邻域采样获得平坦损失面增强泛化，但牺牲了损失极大值的高度导致攻击力不足
核心矛盾：Exploration和Exploitation之间存在根本性的trade-off——平坦区域未必是高值区域，高值区域未必平坦
切入角度：内迭代的完全随机采样产生不稳定梯度方向，无法一致性地指向"既平坦又高值"的目标区域
核心idea：用上一内迭代的梯度方向引导当前采样方向（大小仍随机），既保持向梯度上升方向的稳定性(Exploitation)，又保留采样随机性以探索平坦区域(Exploration)

方法详解¶

整体框架¶

GGS基于MI-FGSM的外迭代框架，在每次对抗样本更新前插入N步内迭代。每步内迭代中，先沿上一步梯度方向以随机幅度进行采样（lookahead采样），然后在采样点计算梯度。所有内迭代梯度取平均后更新动量，最终更新对抗样本。

关键设计¶

Random Sampling (RS) 基线分析:
- 功能：在内迭代中进行完全随机的邻域采样
- 核心思路：采样点 \(\tilde{x}_i = x_{t-1}^{adv} + \tilde{p}\)，\(\tilde{p} \sim \text{Uniform}(-\zeta, \zeta)\)
- 问题：完全随机的采样产生不稳定梯度方向，平均梯度虽大致指向平坦区域，但难以一致对准"平坦且高值"的区域中心
Momentum-Guided Sampling (MGS) 中间方案:
- 功能：用累积动量方向引导采样
- 核心思路：\(\bar{x}_i = x_{t-1}^{adv} + |\tilde{p}| \cdot \text{sign}(m_{i-1})\)，其中 \(m_i = \sum_{k=1}^i \tilde{g}_k\)
- 问题：对上一问题有改进——Nesterov lookahead确保稳定梯度上升方向。但动量累积造成长链依赖：早期不稳定采样过度约束后续方向，严重损害探索平坦区域的能力
- 实验验证：MGS在替代模型上ASR仅提升0.2%，但迁移ASR下降5%
Gradient-Guided Sampling (GGS):
- 功能：用上一内迭代的梯度（而非累积动量）引导采样方向
- 核心思路：\(\hat{x}_i = x_{t-1}^{adv} + |\tilde{p}| \cdot \text{sign}(\tilde{g}_{i-1})\)
  - 方向由上一步梯度决定（保持梯度上升稳定性→Exploitation）
  - 大小由随机分布决定（保持采样随机性→Exploration）
  - 仅依赖单步前梯度（避免长链依赖→保持探索能力）
- 设计动机：相比MGS将\(m_{i-1}\)替换为\(\tilde{g}_{i-1}\)，大幅缓解长链依赖问题。经过初始短暂振荡后，GGS能稳定收敛到"平坦且高值"区域的中心
- 关键特性：损失面可视化显示GGS的红色区域几乎完全包围其他方法的损失面

损失函数 / 训练策略¶

超参数设置：最大扰动 \(\epsilon=16/255\)，外迭代T=10，步长\(\alpha=\epsilon/T\)，内迭代N=20，采样半径\(\zeta=2.0\times\epsilon\)
动量衰减γ与MI-FGSM一致
初始梯度 \(\tilde{g}_0 \sim \text{Uniform}(-\zeta, \zeta)\)（随机初始化）
1000张ImageNet兼容图像(299×299×3)用于评估
完整攻击流程即Algorithm 1：内迭代采样+梯度计算→外迭代动量更新+样本投影

实验关键数据¶

主实验 (非定向/定向ASR%, 单模型生成)¶

从ResNet50生成:

方法	Dense121	Inc-v3	ViT-B	Inc-v3ens3	平均(9模型)
MI (CVPR'18)	54.9/0.2	44.2/0.0	11.8/0.0	22.8/0.0	36.53/10.92
PGN (NeurIPS'23)	91.3/4.7	85.0/1.4	49.7/0.4	74.9/0.6	76.53/6.84
GGS	95.9/28.6	89.6/7.2	60.2/3.4	77.5/3.7	82.08/17.67

从ViT-B生成:

方法	Res50	Dense121	Inc-v3	PiT-B	平均(9模型)
PGN	69.3/0.4	81.1/0.7	78.6/0.4	84.8/4.4	75.29/9.91
GGS	80.8/6.0	89.9/6.5	87.4/4.6	92.7/27.3	83.33/17.22

MLLM攻击结果 (集成设置, CSR%↓)¶

方法	GPT-4o	Gemini Pro	Claude Sonnet	平均↓
Clean	77.1	85.6	68.3	79.18
PGN	56.2	69.6	45.1	56.80
GGS	43.1	61.1	40.0	47.54

GGS将MLLM平均CSR降低9%+，比最强基线更有效。

消融实验¶

采样引导方式	ResNet50(白盒)	其他8模型(黑盒)
Random Sampling (RS)	97.3	63.74
Momentum-Guided (MGS)	97.5	58.79
Gradient-Guided (GGS)	99.3	79.93

与其他方法组合兼容性 (ResNet50生成):

方法	非定向ASR	定向ASR
GRA / +GGS	73.41 / 78.69	8.61 / 13.64
PGN / +GGS	76.53 / 83.23	6.84 / 12.79
DIM / +GGS	51.30 / 90.13	8.63 / 19.37
SIM / +GGS	46.80 / 90.12	11.14 / 28.44
Admix / +GGS	54.78 / 85.50	11.28 / 30.50

关键发现¶

GGS在所有替代模型(Res50/Inc-v3/ViT-B)上均取得最高平均非定向ASR(82.08/69.27/83.33%)
MGS因长链依赖反而降低迁移攻击5%(Table 4)，验证了"动量引导不适合内迭代采样"的分析
GGS与输入变换方法组合提升巨大：DIM+GGS提升38.83%非定向ASR，SIM+GGS提升43.32%
损失面可视化(Fig. 4)中GGS红色区域几乎完全覆盖其他方法，同时保持更高的局部极大值
内迭代梯度相似度分析(Fig. 5d)：GGS的低梯度相似度反映了增强的探索能力，而MGS的高相似度表明探索受限
GGS经过初始短暂振荡后即达到稳定采样方向（Fig. 2c），无论初始采样质量如何

亮点与洞察¶

核心洞察精准：将Exploration-Exploitation困境抽象为损失面的"平坦性"与"高值性"的对立，抓住了迁移攻击的关键矛盾
方法极其简洁：仅将RS中的 \(\tilde{p}\) 替换为 \(|\tilde{p}| \cdot \text{sign}(\tilde{g}_{i-1})\)——一行代码的改动带来16%+的迁移ASR提升
从RS→MGS→GGS的渐进分析逻辑清晰：每一步解决一个问题(稳定性→长链依赖→平衡)
对MLLM(GPT-4o/Gemini/Claude)的攻击评估体现了方法的实际安全研究价值
与5种输入变换和2种RS方法的广泛兼容性验证充分

局限与展望¶

目前仅适用于基于梯度平均的内迭代方法，对VMI-FGSM、RAP等非梯度平均方法的兼容性有待探索（作者在结论中承认）
内迭代数N=20计算成本较高，如何在减少内迭代次数的同时保持效果值得研究
采样半径ζ=2ε为固定值，自适应调整可能进一步优化平坦区域搜索
仅在分类任务上评估，对目标检测、语义分割等下游任务的迁移性未验证
初始梯度\(\tilde{g}_0\)的随机性如何影响最终收敛的分析可更深入

评分¶

新颖性: ⭐⭐⭐⭐ 洞察深刻（E&E困境→单步梯度引导），方法简洁优雅
实验充分度: ⭐⭐⭐⭐⭐ CNN/ViT/对抗训练模型/MLLM/商业API全面覆盖，消融和兼容性分析详尽
写作质量: ⭐⭐⭐⭐⭐ RS→MGS→GGS的渐进逻辑和Fig. 1-5的可视化极其清晰
价值: ⭐⭐⭐⭐ 方法简洁实用且广泛兼容，对对抗攻击研究和AI安全防御都有重要参考意义