跳转至

Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling

会议: ICCV 2025
arXiv: 2511.00411
代码: https://github.com/anuin-cat/GGS
领域: AI安全 / 对抗攻击
关键词: 对抗迁移性, 梯度引导采样, 探索-利用平衡, 平坦极大值, 黑盒攻击

一句话总结

提出Gradient-Guided Sampling (GGS)内迭代采样策略,通过使用上一内迭代的梯度方向引导采样,在平衡Exploitation(攻击强度/损失极大值)和Exploration(跨模型泛化/平坦损失面)的困境中取得突破,在CNN/ViT/MLLM等多架构上显著超越现有迁移攻击方法。

研究背景与动机

  • 领域现状:对抗迁移攻击在黑盒场景下至关重要——攻击者仅能接触替代模型,希望生成的对抗样本能骗过未知目标模型。近年来梯度方法、输入变换方法、平坦极大值方法不断发展
  • 现有痛点
    • 传统动量方法(MI-FGSM)过度优先Exploitation——找到更高的损失极大值带来强攻击力,但损失面尖锐导致泛化差
    • 近期内迭代采样方法(PGN, GRA)过度优先Exploration——通过邻域采样获得平坦损失面增强泛化,但牺牲了损失极大值的高度导致攻击力不足
  • 核心矛盾:Exploration和Exploitation之间存在根本性的trade-off——平坦区域未必是高值区域,高值区域未必平坦
  • 切入角度:内迭代的完全随机采样产生不稳定梯度方向,无法一致性地指向"既平坦又高值"的目标区域
  • 核心idea:用上一内迭代的梯度方向引导当前采样方向(大小仍随机),既保持向梯度上升方向的稳定性(Exploitation),又保留采样随机性以探索平坦区域(Exploration)

方法详解

整体框架

GGS基于MI-FGSM的外迭代框架,在每次对抗样本更新前插入N步内迭代。每步内迭代中,先沿上一步梯度方向以随机幅度进行采样(lookahead采样),然后在采样点计算梯度。所有内迭代梯度取平均后更新动量,最终更新对抗样本。

关键设计

  1. Random Sampling (RS) 基线分析:

    • 功能:在内迭代中进行完全随机的邻域采样
    • 核心思路:采样点 \(\tilde{x}_i = x_{t-1}^{adv} + \tilde{p}\)\(\tilde{p} \sim \text{Uniform}(-\zeta, \zeta)\)
    • 问题:完全随机的采样产生不稳定梯度方向,平均梯度虽大致指向平坦区域,但难以一致对准"平坦且高值"的区域中心
  2. Momentum-Guided Sampling (MGS) 中间方案:

    • 功能:用累积动量方向引导采样
    • 核心思路:\(\bar{x}_i = x_{t-1}^{adv} + |\tilde{p}| \cdot \text{sign}(m_{i-1})\),其中 \(m_i = \sum_{k=1}^i \tilde{g}_k\)
    • 问题:对上一问题有改进——Nesterov lookahead确保稳定梯度上升方向。但动量累积造成长链依赖:早期不稳定采样过度约束后续方向,严重损害探索平坦区域的能力
    • 实验验证:MGS在替代模型上ASR仅提升0.2%,但迁移ASR下降5%
  3. Gradient-Guided Sampling (GGS):

    • 功能:用上一内迭代的梯度(而非累积动量)引导采样方向
    • 核心思路:\(\hat{x}_i = x_{t-1}^{adv} + |\tilde{p}| \cdot \text{sign}(\tilde{g}_{i-1})\)
      • 方向由上一步梯度决定(保持梯度上升稳定性→Exploitation)
      • 大小由随机分布决定(保持采样随机性→Exploration)
      • 仅依赖单步前梯度(避免长链依赖→保持探索能力)
    • 设计动机:相比MGS将\(m_{i-1}\)替换为\(\tilde{g}_{i-1}\),大幅缓解长链依赖问题。经过初始短暂振荡后,GGS能稳定收敛到"平坦且高值"区域的中心
    • 关键特性:损失面可视化显示GGS的红色区域几乎完全包围其他方法的损失面

损失函数 / 训练策略

  • 超参数设置:最大扰动 \(\epsilon=16/255\),外迭代T=10,步长\(\alpha=\epsilon/T\),内迭代N=20,采样半径\(\zeta=2.0\times\epsilon\)
  • 动量衰减γ与MI-FGSM一致
  • 初始梯度 \(\tilde{g}_0 \sim \text{Uniform}(-\zeta, \zeta)\)(随机初始化)
  • 1000张ImageNet兼容图像(299×299×3)用于评估
  • 完整攻击流程即Algorithm 1:内迭代采样+梯度计算→外迭代动量更新+样本投影

实验关键数据

主实验 (非定向/定向ASR%, 单模型生成)

从ResNet50生成:

方法 Dense121 Inc-v3 ViT-B Inc-v3ens3 平均(9模型)
MI (CVPR'18) 54.9/0.2 44.2/0.0 11.8/0.0 22.8/0.0 36.53/10.92
PGN (NeurIPS'23) 91.3/4.7 85.0/1.4 49.7/0.4 74.9/0.6 76.53/6.84
GGS 95.9/28.6 89.6/7.2 60.2/3.4 77.5/3.7 82.08/17.67

从ViT-B生成:

方法 Res50 Dense121 Inc-v3 PiT-B 平均(9模型)
PGN 69.3/0.4 81.1/0.7 78.6/0.4 84.8/4.4 75.29/9.91
GGS 80.8/6.0 89.9/6.5 87.4/4.6 92.7/27.3 83.33/17.22

MLLM攻击结果 (集成设置, CSR%↓)

方法 GPT-4o Gemini Pro Claude Sonnet 平均↓
Clean 77.1 85.6 68.3 79.18
PGN 56.2 69.6 45.1 56.80
GGS 43.1 61.1 40.0 47.54

GGS将MLLM平均CSR降低9%+,比最强基线更有效。

消融实验

采样引导方式 ResNet50(白盒) 其他8模型(黑盒)
Random Sampling (RS) 97.3 63.74
Momentum-Guided (MGS) 97.5 58.79
Gradient-Guided (GGS) 99.3 79.93

与其他方法组合兼容性 (ResNet50生成):

方法 非定向ASR 定向ASR
GRA / +GGS 73.41 / 78.69 8.61 / 13.64
PGN / +GGS 76.53 / 83.23 6.84 / 12.79
DIM / +GGS 51.30 / 90.13 8.63 / 19.37
SIM / +GGS 46.80 / 90.12 11.14 / 28.44
Admix / +GGS 54.78 / 85.50 11.28 / 30.50

关键发现

  • GGS在所有替代模型(Res50/Inc-v3/ViT-B)上均取得最高平均非定向ASR(82.08/69.27/83.33%)
  • MGS因长链依赖反而降低迁移攻击5%(Table 4),验证了"动量引导不适合内迭代采样"的分析
  • GGS与输入变换方法组合提升巨大:DIM+GGS提升38.83%非定向ASR,SIM+GGS提升43.32%
  • 损失面可视化(Fig. 4)中GGS红色区域几乎完全覆盖其他方法,同时保持更高的局部极大值
  • 内迭代梯度相似度分析(Fig. 5d):GGS的低梯度相似度反映了增强的探索能力,而MGS的高相似度表明探索受限
  • GGS经过初始短暂振荡后即达到稳定采样方向(Fig. 2c),无论初始采样质量如何

亮点与洞察

  • 核心洞察精准:将Exploration-Exploitation困境抽象为损失面的"平坦性"与"高值性"的对立,抓住了迁移攻击的关键矛盾
  • 方法极其简洁:仅将RS中的 \(\tilde{p}\) 替换为 \(|\tilde{p}| \cdot \text{sign}(\tilde{g}_{i-1})\)——一行代码的改动带来16%+的迁移ASR提升
  • 从RS→MGS→GGS的渐进分析逻辑清晰:每一步解决一个问题(稳定性→长链依赖→平衡)
  • 对MLLM(GPT-4o/Gemini/Claude)的攻击评估体现了方法的实际安全研究价值
  • 与5种输入变换和2种RS方法的广泛兼容性验证充分

局限与展望

  • 目前仅适用于基于梯度平均的内迭代方法,对VMI-FGSM、RAP等非梯度平均方法的兼容性有待探索(作者在结论中承认)
  • 内迭代数N=20计算成本较高,如何在减少内迭代次数的同时保持效果值得研究
  • 采样半径ζ=2ε为固定值,自适应调整可能进一步优化平坦区域搜索
  • 仅在分类任务上评估,对目标检测、语义分割等下游任务的迁移性未验证
  • 初始梯度\(\tilde{g}_0\)的随机性如何影响最终收敛的分析可更深入

相关工作与启发

  • MI-FGSM的动量思想和NI-FGSM的Nesterov lookahead是核心基础
  • PGN的梯度范数惩罚和RAP的锐度感知最小化代表了平坦极大值的两种追求路径
  • SAM (Sharpness-Aware Minimization) 从模型训练泛化迁移到对抗样本泛化的类比非常有启发
  • GGS的"单步梯度依赖替代累积动量依赖"思想可能对其他需要平衡探索-利用的优化问题有借鉴价值

评分

  • 新颖性: ⭐⭐⭐⭐ 洞察深刻(E&E困境→单步梯度引导),方法简洁优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ CNN/ViT/对抗训练模型/MLLM/商业API全面覆盖,消融和兼容性分析详尽
  • 写作质量: ⭐⭐⭐⭐⭐ RS→MGS→GGS的渐进逻辑和Fig. 1-5的可视化极其清晰
  • 价值: ⭐⭐⭐⭐ 方法简洁实用且广泛兼容,对对抗攻击研究和AI安全防御都有重要参考意义

相关论文