A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1¶
会议: NeurIPS 2025
arXiv: 2503.10635
代码: https://github.com/VILA-Lab/M-Attack
领域: AI安全 / 对抗攻击 / 多模态VLM
关键词: 对抗攻击, 黑盒迁移攻击, 局部语义匹配, 大视觉语言模型, 模型集成
一句话总结¶
提出 M-Attack,通过对对抗图像做随机裁剪后与目标图像在嵌入空间做局部对齐(而非传统的全局对齐),配合多模型集成,使得生成的对抗扰动具有丰富的局部语义细节,在 GPT-4.5/4o/o1 等商业黑盒 LVLM 上实现超过 90% 的目标攻击成功率,大幅超越所有已有方法。
背景与动机¶
基于迁移的目标对抗攻击(transfer-based targeted attack)是评估商业 LVLM 鲁棒性的核心手段。现有方法(AttackVLM、SSA-CWA、AnyAttack、AdvDiffVLM)在开源模型上表现尚可,但对 GPT-4o、Claude-3.5、Gemini-2.0 等黑盒商业模型的攻击成功率极低(通常不到 10%)。作者深入分析了失败原因:已有方法生成的扰动呈近似均匀分布(uniform-like),缺乏清晰的语义结构。商业模型要么直接忽略这种无语义扰动,要么给出模糊描述("blurry"、"abstract"),攻击因此失败。这说明成功的可迁移对抗样本需要在扰动中嵌入明确的目标语义细节,而不仅仅是在嵌入空间优化全局距离。
核心问题¶
如何在不访问目标模型的情况下,生成带有丰富语义细节的对抗扰动,使其能够跨架构迁移到各种商业黑盒 LVLM,让模型输出与攻击者指定的目标图像一致的描述?核心挑战在于:全局特征匹配虽能拉近嵌入距离,但会产生均匀化扰动,丢失驱动模型决策的局部细粒度语义信息。
方法详解¶
整体框架¶
M-Attack 的流程非常简洁:给定一张干净的源图像和一张目标图像,在每个优化迭代中,(1) 对当前对抗图像做随机裁剪(控制裁剪比例和长宽比),(2) 将裁剪区域 resize 到模型输入尺寸,(3) 通过多个代理模型(CLIP 变体集成)计算裁剪后源图像与目标图像的余弦相似度,(4) 反向传播梯度更新扰动。多次迭代后,不同裁剪区域的局部扰动在源图像上叠加聚合,中心区域获得最多的语义细节,边缘区域则包含多样化的上下文信息。
关键设计¶
-
局部匹配(Local-level Matching, LM):这是方法的核心。与传统方法将整张源图和整张目标图在嵌入空间做全局对齐不同,M-Attack 在每个迭代中对源图像随机裁剪(crop scale 在 [0.5, 1.0] 范围内),再与目标图像匹配。作者提出两个关键性质:(a) 不同迭代的裁剪区域必须有重叠(保证语义一致性,Eq.3),(b) 裁剪区域的并集要大于单个区域(保证细节多样性,Eq.4)。这两个性质的平衡使得中心区域积累了共享的核心语义,边缘区域则产生多样的细节。当所有裁剪完全重合时,退化为传统的全局对齐——但实验证明全局对齐虽然嵌入距离更近,攻击成功率反而最低(GPT-4o 仅 5%),而局部匹配可达 93-95%。支持 Local-to-Global 和 Local-to-Local 两种模式,后者在 Claude 上略优。
-
模型集成(Model Ensemble, ENS):使用三个 CLIP 变体作为代理模型:ViT-B/16(patch size 16)、ViT-B/32(patch size 32)和 ViT-g-14-laion2B。不同 patch size 的模型有互补的感受野——小 patch 模型捕获精细细节,大 patch 模型保留整体结构。集成不仅提取了跨模型共享的语义(更易迁移到未知模型),还通过互补感知场显著提升了扰动质量。消融实验显示去掉集成会导致约 40% 的性能下降,且局部匹配和集成的协同增益超过各自贡献之和。
-
KMRScore 评估指标:针对已有评估方法主观性强的问题,为每张图像标注多个语义关键词,设定三个匹配阈值(0.25/0.5/1.0),利用 GPT-4o 做半自动化评估。这比单一的 ASR 更细致地衡量了攻击的语义完整性。
训练策略¶
采用 I-FGSM 优化(也验证了 MI-FGSM 和 PGD-ADAM 同样有效),ε=16 under ℓ∞ norm,优化 300 步。步长 α 对不同模型有差异(Claude 用 0.75,其他用 1.0)。方法与具体优化器无关,核心在于局部裁剪+集成的框架设计。
实验关键数据¶
| 模型 | 指标 | M-Attack | AnyAttack | SSA-CWA | AttackVLM |
|---|---|---|---|---|---|
| GPT-4o | KMR_a / ASR | 0.82 / 0.95 | 0.44 / 0.42 | 0.11 / 0.09 | 0.08 / 0.02 |
| Gemini-2.0 | KMR_a / ASR | 0.75 / 0.78 | 0.46 / 0.48 | 0.05 / 0.04 | 0.06 / 0.00 |
| Claude-3.5 | KMR_a / ASR | 0.31 / 0.29 | 0.25 / 0.23 | 0.07 / 0.05 | 0.04 / 0.01 |
| GPT-4.5 | KMR_a / ASR | 0.82 / 0.95 | - | - | - |
| GPT-o1 | KMR_a / ASR | 0.83 / 0.94 | - | - | - |
ℓ₁/ℓ₂ 范数也最低(0.030/0.036),不可感知性也最好。
消融实验要点¶
- 局部匹配是最关键因素:去掉源图像裁剪(LCS),攻击基本失败;去掉目标图像裁剪(LCT)影响较小
- 全局匹配 vs 局部匹配:Global-to-Global 的嵌入距离最近,但 ASR 最低(GPT-4o 仅 5%),证明嵌入距离≠攻击效果
- 集成去掉后:KMR 和 ASR 下降约 40%,且两个组件协同效应超过各自贡献之和
- 裁剪尺度:[0.5, 1.0] 最优,太小([0.1, 0.4])语义一致性不足,太大则缺少多样性
- ε 影响:ε=4 时仍大幅优于对手(0.30 vs 0.07),随 ε 增大优势更明显
- 优化步数:100 步已超过基线方法 300 步结果;增加到 500 步 GPT-4o 的 ASR 接近 100%
- 推理模型同样脆弱:o1、Claude-3.7-thinking、Gemini-thinking 的鲁棒性与非推理版本相当甚至更弱,可能因为推理只作用于文本模态,视觉组件共享
亮点¶
- 极简但有效:核心操作就是随机裁剪 + resize + 余弦相似度对齐,没有复杂的模块设计,但效果碾压所有已有方法
- 深刻的洞察:嵌入空间的全局距离最优≠攻击最优。局部扰动聚合产生的丰富语义细节才是迁移成功的关键。这颠覆了"优化距离越小越好"的直觉
- 从 Optimal Transport 角度的理论解释(Appendix B):局部匹配等价于更灵活的传输计划,可以实现更低的对齐代价
- 新评估指标 KMRScore 比 ASR 更细致,揭示了已有方法在高阈值下的不足(不到 20% 能匹配所有关键词)
- 对推理模型的首次系统评估:发现推理能力并不能增强视觉对抗鲁棒性
局限性 / 可改进方向¶
- Claude 系列模型的攻击成功率相对较低(~30%),说明不同模型的视觉编码器差异可能需要更针对性的策略
- 裁剪操作假设目标语义集中在图像中心区域,对语义偏离中心的图像可能效果下降
- 评估仍依赖于 GPT-4o 作为判断器,可能引入偏差
- 仅考虑了 ℓ∞ 范数约束,ℓ₂ 等其他约束下的效果未充分探索
- 防御方向未涉及——如何利用这些发现设计更鲁棒的视觉编码器?
与相关工作的对比¶
- AttackVLM:首个基于 CLIP/BLIP 代理的迁移攻击,但用全局特征匹配,扰动无语义,商业模型 ASR 不到 5%
- AnyAttack:通过大规模自监督预训练和微调生成对抗样本,有一定语义但模板化明显,视觉质量差,ASR ~42%
- SSA-CWA:引入频域变换和锐度感知优化,但仍是全局匹配框架,ASR ~9%
- AdvDiffVLM:用扩散模型引导生成,GradCAM 引导放置扰动,但限制在视觉不重要区域反而削弱攻击力,ASR 最低
- M-Attack 的核心差异:所有已有方法都在做全局对齐或复杂的生成流程,而 M-Attack 只做局部裁剪对齐,反而效果最好。简单的方法暴露了问题的本质——语义细节比嵌入距离更重要
启发与关联¶
- 局部裁剪聚合语义的思路可以反向用于防御:如果模型能检测到局部区域语义与全局不一致,就可能识别出对抗样本
- 与
ideas/ai_safety/中的多个 idea 有关联:这篇论文揭示了当前商业 LVLM 视觉模态的根本脆弱性,可以启发基于语义一致性检测的防御方法 - "推理模型视觉同样脆弱"这一发现对 AI 安全评估有重要意义——不能假设推理能力 = 鲁棒性
- 局部-全局对齐的 Optimal Transport 视角可迁移到对比学习、图像检索等领域
评分¶
- 新颖性: ⭐⭐⭐⭐ 方法本身极简(随机裁剪不新),但洞察深刻:首次发现并分析局部语义细节对迁移攻击的关键作用
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 7+ 商业模型,含推理模型,100/1K 图像评估,详尽消融,多优化器验证
- 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,理论分析(OT 视角)有深度,个别表格过于密集
- 价值: ⭐⭐⭐⭐⭐ 建立了新的攻击 baseline,揭示商业 LVLM 的根本脆弱性,对安全评估和防御研究意义重大