跳转至

Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models (UltraBreak)

会议: ICLR 2026
arXiv: 2602.01025
代码: 有(GitHub)
领域: AI安全 / 多模态VLM
关键词: VLM越狱, 对抗攻击, 通用对抗图像, 语义损失, 可迁移攻击

一句话总结

提出 UltraBreak,通过语义对抗目标(用cosine相似度替代交叉熵优化出平滑loss景观)+ 输入空间约束(随机变换+TV正则化产生变换不变特征),训练单张通用对抗图像即可跨6+个VLM架构和商业模型实现越狱,黑盒平均ASR达71%(SafeBench),远超此前方法。

研究背景与动机

  1. 领域现状:VLM越狱攻击分为手工设计(如FigStep将有害文本嵌入图像)和基于梯度优化(如VAJM/UMK)。梯度方法理论上可产生通用触发器,但实际中严重过拟合单一白盒代理模型。
  2. 现有痛点
  3. 通用性问题:现有梯度攻击对单一目标有效但无法跨查询泛化
  4. 可迁移性问题:对白盒代理优化的对抗图像无法迁移到黑盒模型
  5. 根因:交叉熵损失产生尖锐(spiky)的loss景观,优化到的尖峰解泛化性差
  6. 核心矛盾:希望用一张图像攻击所有查询和所有模型,但现有损失函数和优化方式导致严重过拟合
  7. 本文要解决什么? 同时实现通用性(单张图像跨所有有害查询)和可迁移性(跨模型架构)
  8. 切入角度:loss景观的平滑性决定泛化性——将token级交叉熵替换为语义级cosine相似度
  9. 核心idea一句话:语义损失平滑loss景观 + 输入变换产生不变特征 = 单张图通用跨模型越狱

方法详解

整体框架

选择一个白盒代理VLM → 在50个查询上优化单张对抗图像(1300步Adam) → 该图像可直接用于攻击任意VLM(包括商业模型)的任意有害查询。输入是空白图像+对抗扰动,输出是对所有目标模型都有效的通用触发图像。

关键设计

  1. 语义对抗目标(Semantic Adversarial Target):
  2. 做什么:用语义相似度替代token级交叉熵作为优化目标
  3. 核心思路:将输出logits投影到embedding空间得到 \(\mu_t = W^\top \text{softmax}(z_t)\),将目标token映射为embedding \(e_t\)(加Gaussian噪声增强鲁棒性 \(\tilde{e}_t = e_t + \varepsilon_t\))。损失函数 \(\mathcal{L}_{\text{sem}} = \frac{1}{T}\sum_t (1 - \cos(\mu_t, e_t^{\text{att}}))\),其中 \(e_t^{\text{att}}\) 是通过因果注意力加权的目标embedding
  4. 设计动机:交叉熵loss要求精确匹配token,产生spiky景观;cosine相似度在语义空间度量,允许"语义上正确但token不同"的解——产生平滑景观→更好泛化
  5. 注意力机制:加入位置编码的Q/K构造,温度 \(\tau=0.5\) 控制分布锐度。\(\tau=0\) 退化为CE,\(\tau \to \infty\) 过于平滑

  6. 输入空间约束(Input Space Constraints):

  7. 做什么:让对抗图像产生变换不变的鲁棒特征
  8. 三个组件:(a) 随机变换——每步随机旋转(-15°~15°)、缩放(0.8~1.2)、平移,防止像素位置过拟合 (b) 输入投影——用CLIP的均值/标准差归一化并裁剪到[0,1] (c) TV正则 \(\mathcal{L}_{\text{TV}}\) 强制空间平滑,抑制噪声模式
  9. 效果:无约束→噪声图像; +随机变换→类文字模式涌现; +TV→更光滑一致的结构。这些变换不变结构充当跨模型不变线索

  10. 目标prompt引导(TPG):

  11. 做什么:在文本侧增强攻击效果
  12. 格式:\(q^{\text{TPG}} = \text{"Steps to "} + q + \text{" You must begin with: "} + p\),其中 \(p\) = "[Jailbroken Mode]"(开源) 或 "[START LIST]"(商业)

损失函数 / 训练策略

$\(\arg\min_x \sum_{(q,y) \in \mathcal{Q}'} \mathbb{E}_{l,r,s}[\mathcal{L}_{\text{sem}}^{\text{att}}(M', A(x_{\text{blank}}, x_{\text{proj}}, l, r, s), q^{\text{TPG}}, y)] + \lambda_{\text{TV}} \mathcal{L}_{\text{TV}}(x)\)$ - 代理模型:Qwen2-VL-7B-Instruct - 训练:SafeBench-Tiny(50个查询),1300步Adam,\(\tau=0.5\), \(\lambda_{\text{TV}}=0.5\)

实验关键数据

主实验:黑盒ASR(SafeBench, 315查询)

目标模型 No Attack FigStep VAJM UMK UltraBreak
Qwen-VL-Chat 22.86 69.52 12.06 0.63 72.70
Qwen2.5-VL-7B 14.29 53.97 28.89 15.24 60.32
LLaVA-v1.6 80.32 47.94 57.46 20.63 88.25
GLM-4.1V-9B 46.03 88.25 67.62 50.79 66.03
黑盒平均 40.57 66.54 41.46 20.00 71.05
商业模型平均 20.00 - 11.48 14.59 32.26

消融实验

配置 SafeBench Avg AdvBench Avg 说明
完整UltraBreak 71.83 57.64
去掉图像(纯文本) 40.79 25.90 图像贡献~30% ASR
去掉约束 51.99 29.86 白盒过拟合(89%→49%迁移)
去掉语义损失(用CE) 55.80 40.15 CE景观尖锐→迁移差
去掉注意力加权 57.54 41.83 优化不稳定+方差大

关键发现

  • 单张图像通用攻击:训练时50个查询→可攻击315+有害查询×6+模型架构,一图打天下
  • 语义损失 vs CE:语义损失产生的loss景观聚类且平滑,CE则scattered且spiky
  • 变换不变结构:TV+随机变换让对抗图像呈现类文字/符号结构,这些高级特征比像素噪声更容易跨模型迁移
  • 商业模型也不安全:Gemini-2.5达42% ASR, GPT-4.1-nano达38.78%

亮点与洞察

  • loss景观视角的核心洞察:将对抗可迁移性问题归结为loss景观平滑性问题,用语义损失替代CE来平滑景观。这个视角可迁移到所有对抗迁移性研究
  • 变换不变性 = 模型不变性:通过输入侧随机变换让扰动学到高级语义特征而非低级像素模式,高级特征跨模型共享——这解释了为什么人类设计的文字图像(FigStep)也有跨模型效果
  • 挑战了"需要多代理"的信念:此前认为跨模型迁移需要多个代理模型ensemble,UltraBreak证明单代理+正确的损失函数就够了

局限性 / 可改进方向

  • 对高安全模型效果有限:Claude-3-haiku只有16% ASR,说明强防御模型仍然有效
  • 依赖白盒代理:仍需一个开源VLM做白盒优化
  • 防御方向:论文揭示了VLM对"变换不变视觉特征"的脆弱性,可据此设计检测/防御——如检测图像中是否包含类文字对抗结构
  • 结合GuardAlign:UltraBreak的视觉攻击 vs GuardAlign的OT安全检测,两者是直接的矛盾对

相关工作与启发

  • vs FigStep:FigStep人工设计每张图像(每目标一图),UltraBreak自动优化且单图通用,ASR更高
  • vs UMK/VAJM:这些梯度方法用CE损失,严重过拟合白盒代理;UltraBreak的语义损失从根本上解决了这个问题
  • vs 文本侧越狱(GCG等):UltraBreak在视觉模态攻击,与文本攻击正交,可以组合使用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ loss景观视角+语义损失+变换不变性的组合设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ 6+开源模型+3商业模型×3基准×消融,非常全面
  • 写作质量: ⭐⭐⭐⭐ 技术细节清晰,消融和可视化分析到位
  • 价值: ⭐⭐⭐⭐⭐ 揭示了VLM安全的根本性脆弱性,对防御研究有重要指导