Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling¶
会议: ICCV 2025
arXiv: 2511.00411
代码: https://github.com/anuin-cat/GGS
领域: AI安全 / 对抗攻击
关键词: 对抗迁移性, 梯度引导采样, 探索-利用平衡, 平坦极大值, 黑盒攻击
一句话总结¶
提出Gradient-Guided Sampling (GGS)内迭代采样策略,通过使用上一内迭代的梯度方向引导采样,在平衡Exploitation(攻击强度/损失极大值)和Exploration(跨模型泛化/平坦损失面)的困境中取得突破,在CNN/ViT/MLLM等多架构上显著超越现有迁移攻击方法。
研究背景与动机¶
- 领域现状:对抗迁移攻击在黑盒场景下至关重要——攻击者仅能接触替代模型,希望生成的对抗样本能骗过未知目标模型。近年来梯度方法、输入变换方法、平坦极大值方法不断发展
- 现有痛点:
- 传统动量方法(MI-FGSM)过度优先Exploitation——找到更高的损失极大值带来强攻击力,但损失面尖锐导致泛化差
- 近期内迭代采样方法(PGN, GRA)过度优先Exploration——通过邻域采样获得平坦损失面增强泛化,但牺牲了损失极大值的高度导致攻击力不足
- 核心矛盾:Exploration和Exploitation之间存在根本性的trade-off——平坦区域未必是高值区域,高值区域未必平坦
- 切入角度:内迭代的完全随机采样产生不稳定梯度方向,无法一致性地指向"既平坦又高值"的目标区域
- 核心idea:用上一内迭代的梯度方向引导当前采样方向(大小仍随机),既保持向梯度上升方向的稳定性(Exploitation),又保留采样随机性以探索平坦区域(Exploration)
方法详解¶
整体框架¶
GGS基于MI-FGSM的外迭代框架,在每次对抗样本更新前插入N步内迭代。每步内迭代中,先沿上一步梯度方向以随机幅度进行采样(lookahead采样),然后在采样点计算梯度。所有内迭代梯度取平均后更新动量,最终更新对抗样本。
关键设计¶
-
Random Sampling (RS) 基线分析:
- 功能:在内迭代中进行完全随机的邻域采样
- 核心思路:采样点 \(\tilde{x}_i = x_{t-1}^{adv} + \tilde{p}\),\(\tilde{p} \sim \text{Uniform}(-\zeta, \zeta)\)
- 问题:完全随机的采样产生不稳定梯度方向,平均梯度虽大致指向平坦区域,但难以一致对准"平坦且高值"的区域中心
-
Momentum-Guided Sampling (MGS) 中间方案:
- 功能:用累积动量方向引导采样
- 核心思路:\(\bar{x}_i = x_{t-1}^{adv} + |\tilde{p}| \cdot \text{sign}(m_{i-1})\),其中 \(m_i = \sum_{k=1}^i \tilde{g}_k\)
- 问题:对上一问题有改进——Nesterov lookahead确保稳定梯度上升方向。但动量累积造成长链依赖:早期不稳定采样过度约束后续方向,严重损害探索平坦区域的能力
- 实验验证:MGS在替代模型上ASR仅提升0.2%,但迁移ASR下降5%
-
Gradient-Guided Sampling (GGS):
- 功能:用上一内迭代的梯度(而非累积动量)引导采样方向
- 核心思路:\(\hat{x}_i = x_{t-1}^{adv} + |\tilde{p}| \cdot \text{sign}(\tilde{g}_{i-1})\)
- 方向由上一步梯度决定(保持梯度上升稳定性→Exploitation)
- 大小由随机分布决定(保持采样随机性→Exploration)
- 仅依赖单步前梯度(避免长链依赖→保持探索能力)
- 设计动机:相比MGS将\(m_{i-1}\)替换为\(\tilde{g}_{i-1}\),大幅缓解长链依赖问题。经过初始短暂振荡后,GGS能稳定收敛到"平坦且高值"区域的中心
- 关键特性:损失面可视化显示GGS的红色区域几乎完全包围其他方法的损失面
损失函数 / 训练策略¶
- 超参数设置:最大扰动 \(\epsilon=16/255\),外迭代T=10,步长\(\alpha=\epsilon/T\),内迭代N=20,采样半径\(\zeta=2.0\times\epsilon\)
- 动量衰减γ与MI-FGSM一致
- 初始梯度 \(\tilde{g}_0 \sim \text{Uniform}(-\zeta, \zeta)\)(随机初始化)
- 1000张ImageNet兼容图像(299×299×3)用于评估
- 完整攻击流程即Algorithm 1:内迭代采样+梯度计算→外迭代动量更新+样本投影
实验关键数据¶
主实验 (非定向/定向ASR%, 单模型生成)¶
从ResNet50生成:
| 方法 | Dense121 | Inc-v3 | ViT-B | Inc-v3ens3 | 平均(9模型) |
|---|---|---|---|---|---|
| MI (CVPR'18) | 54.9/0.2 | 44.2/0.0 | 11.8/0.0 | 22.8/0.0 | 36.53/10.92 |
| PGN (NeurIPS'23) | 91.3/4.7 | 85.0/1.4 | 49.7/0.4 | 74.9/0.6 | 76.53/6.84 |
| GGS | 95.9/28.6 | 89.6/7.2 | 60.2/3.4 | 77.5/3.7 | 82.08/17.67 |
从ViT-B生成:
| 方法 | Res50 | Dense121 | Inc-v3 | PiT-B | 平均(9模型) |
|---|---|---|---|---|---|
| PGN | 69.3/0.4 | 81.1/0.7 | 78.6/0.4 | 84.8/4.4 | 75.29/9.91 |
| GGS | 80.8/6.0 | 89.9/6.5 | 87.4/4.6 | 92.7/27.3 | 83.33/17.22 |
MLLM攻击结果 (集成设置, CSR%↓)¶
| 方法 | GPT-4o | Gemini Pro | Claude Sonnet | 平均↓ |
|---|---|---|---|---|
| Clean | 77.1 | 85.6 | 68.3 | 79.18 |
| PGN | 56.2 | 69.6 | 45.1 | 56.80 |
| GGS | 43.1 | 61.1 | 40.0 | 47.54 |
GGS将MLLM平均CSR降低9%+,比最强基线更有效。
消融实验¶
| 采样引导方式 | ResNet50(白盒) | 其他8模型(黑盒) |
|---|---|---|
| Random Sampling (RS) | 97.3 | 63.74 |
| Momentum-Guided (MGS) | 97.5 | 58.79 |
| Gradient-Guided (GGS) | 99.3 | 79.93 |
与其他方法组合兼容性 (ResNet50生成):
| 方法 | 非定向ASR | 定向ASR |
|---|---|---|
| GRA / +GGS | 73.41 / 78.69 | 8.61 / 13.64 |
| PGN / +GGS | 76.53 / 83.23 | 6.84 / 12.79 |
| DIM / +GGS | 51.30 / 90.13 | 8.63 / 19.37 |
| SIM / +GGS | 46.80 / 90.12 | 11.14 / 28.44 |
| Admix / +GGS | 54.78 / 85.50 | 11.28 / 30.50 |
关键发现¶
- GGS在所有替代模型(Res50/Inc-v3/ViT-B)上均取得最高平均非定向ASR(82.08/69.27/83.33%)
- MGS因长链依赖反而降低迁移攻击5%(Table 4),验证了"动量引导不适合内迭代采样"的分析
- GGS与输入变换方法组合提升巨大:DIM+GGS提升38.83%非定向ASR,SIM+GGS提升43.32%
- 损失面可视化(Fig. 4)中GGS红色区域几乎完全覆盖其他方法,同时保持更高的局部极大值
- 内迭代梯度相似度分析(Fig. 5d):GGS的低梯度相似度反映了增强的探索能力,而MGS的高相似度表明探索受限
- GGS经过初始短暂振荡后即达到稳定采样方向(Fig. 2c),无论初始采样质量如何
亮点与洞察¶
- 核心洞察精准:将Exploration-Exploitation困境抽象为损失面的"平坦性"与"高值性"的对立,抓住了迁移攻击的关键矛盾
- 方法极其简洁:仅将RS中的 \(\tilde{p}\) 替换为 \(|\tilde{p}| \cdot \text{sign}(\tilde{g}_{i-1})\)——一行代码的改动带来16%+的迁移ASR提升
- 从RS→MGS→GGS的渐进分析逻辑清晰:每一步解决一个问题(稳定性→长链依赖→平衡)
- 对MLLM(GPT-4o/Gemini/Claude)的攻击评估体现了方法的实际安全研究价值
- 与5种输入变换和2种RS方法的广泛兼容性验证充分
局限与展望¶
- 目前仅适用于基于梯度平均的内迭代方法,对VMI-FGSM、RAP等非梯度平均方法的兼容性有待探索(作者在结论中承认)
- 内迭代数N=20计算成本较高,如何在减少内迭代次数的同时保持效果值得研究
- 采样半径ζ=2ε为固定值,自适应调整可能进一步优化平坦区域搜索
- 仅在分类任务上评估,对目标检测、语义分割等下游任务的迁移性未验证
- 初始梯度\(\tilde{g}_0\)的随机性如何影响最终收敛的分析可更深入
相关工作与启发¶
- MI-FGSM的动量思想和NI-FGSM的Nesterov lookahead是核心基础
- PGN的梯度范数惩罚和RAP的锐度感知最小化代表了平坦极大值的两种追求路径
- SAM (Sharpness-Aware Minimization) 从模型训练泛化迁移到对抗样本泛化的类比非常有启发
- GGS的"单步梯度依赖替代累积动量依赖"思想可能对其他需要平衡探索-利用的优化问题有借鉴价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 洞察深刻(E&E困境→单步梯度引导),方法简洁优雅
- 实验充分度: ⭐⭐⭐⭐⭐ CNN/ViT/对抗训练模型/MLLM/商业API全面覆盖,消融和兼容性分析详尽
- 写作质量: ⭐⭐⭐⭐⭐ RS→MGS→GGS的渐进逻辑和Fig. 1-5的可视化极其清晰
- 价值: ⭐⭐⭐⭐ 方法简洁实用且广泛兼容,对对抗攻击研究和AI安全防御都有重要参考意义
相关论文¶
- [ICCV 2025] Geminio: Language-Guided Gradient Inversion Attacks in Federated Learning
- [NeurIPS 2025] Boosting Adversarial Transferability with Spatial Adversarial Alignment
- [CVPR 2026] Generative Adversarial Perturbations with Cross-paradigm Transferability on Localized Crowd Counting
- [NeurIPS 2025] Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness
- [ICCV 2025] Active Membership Inference Test (aMINT): Enhancing Model Auditability with Multi-Task Learning