Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models (UltraBreak)¶

会议: ICLR 2026
arXiv: 2602.01025
代码: 有（GitHub）
领域: AI安全 / 多模态VLM
关键词: VLM越狱, 对抗攻击, 通用对抗图像, 语义损失, 可迁移攻击

一句话总结¶

提出 UltraBreak，通过语义对抗目标（用cosine相似度替代交叉熵优化出平滑loss景观）+ 输入空间约束（随机变换+TV正则化产生变换不变特征），训练单张通用对抗图像即可跨6+个VLM架构和商业模型实现越狱，黑盒平均ASR达71%（SafeBench），远超此前方法。

研究背景与动机¶

领域现状：VLM越狱攻击分为手工设计（如FigStep将有害文本嵌入图像）和基于梯度优化（如VAJM/UMK）。梯度方法理论上可产生通用触发器，但实际中严重过拟合单一白盒代理模型。
现有痛点：
通用性问题：现有梯度攻击对单一目标有效但无法跨查询泛化
可迁移性问题：对白盒代理优化的对抗图像无法迁移到黑盒模型
根因：交叉熵损失产生尖锐(spiky)的loss景观，优化到的尖峰解泛化性差
核心矛盾：希望用一张图像攻击所有查询和所有模型，但现有损失函数和优化方式导致严重过拟合
本文要解决什么？ 同时实现通用性（单张图像跨所有有害查询）和可迁移性（跨模型架构）
切入角度：loss景观的平滑性决定泛化性——将token级交叉熵替换为语义级cosine相似度
核心idea一句话：语义损失平滑loss景观 + 输入变换产生不变特征 = 单张图通用跨模型越狱

方法详解¶

整体框架¶

选择一个白盒代理VLM → 在50个查询上优化单张对抗图像(1300步Adam) → 该图像可直接用于攻击任意VLM(包括商业模型)的任意有害查询。输入是空白图像+对抗扰动，输出是对所有目标模型都有效的通用触发图像。

关键设计¶

语义对抗目标(Semantic Adversarial Target):
做什么：用语义相似度替代token级交叉熵作为优化目标
核心思路：将输出logits投影到embedding空间得到 $\mu_t = W^\top \text{softmax}(z_t)$，将目标token映射为embedding $e_t$（加Gaussian噪声增强鲁棒性 $\tilde{e}_t = e_t + \varepsilon_t$）。损失函数 $\mathcal{L}_{\text{sem}} = \frac{1}{T}\sum_t (1 - \cos(\mu_t, e_t^{\text{att}}))$，其中 $e_t^{\text{att}}$ 是通过因果注意力加权的目标embedding
设计动机：交叉熵loss要求精确匹配token，产生spiky景观；cosine相似度在语义空间度量，允许"语义上正确但token不同"的解——产生平滑景观→更好泛化
注意力机制：加入位置编码的Q/K构造，温度 $\tau=0.5$ 控制分布锐度。$\tau=0$ 退化为CE，$\tau \to \infty$ 过于平滑
输入空间约束(Input Space Constraints):
做什么：让对抗图像产生变换不变的鲁棒特征
三个组件：(a) 随机变换——每步随机旋转(-15°~15°)、缩放(0.8~1.2)、平移，防止像素位置过拟合 (b) 输入投影——用CLIP的均值/标准差归一化并裁剪到[0,1] (c) TV正则 $\mathcal{L}_{\text{TV}}$ 强制空间平滑，抑制噪声模式
效果：无约束→噪声图像; +随机变换→类文字模式涌现; +TV→更光滑一致的结构。这些变换不变结构充当跨模型不变线索
目标prompt引导(TPG):
做什么：在文本侧增强攻击效果
格式：$q^{\text{TPG}} = \text{"Steps to "} + q + \text{" You must begin with: "} + p$，其中 $p$ = "[Jailbroken Mode]"(开源) 或 "[START LIST]"(商业)

损失函数 / 训练策略¶

$$\arg\min_x \sum_{(q,y) \in \mathcal{Q}'} \mathbb{E}_{l,r,s}[\mathcal{L}_{\text{sem}}^{\text{att}}(M', A(x_{\text{blank}}, x_{\text{proj}}, l, r, s), q^{\text{TPG}}, y)] + \lambda_{\text{TV}} \mathcal{L}_{\text{TV}}(x)$$ - 代理模型：Qwen2-VL-7B-Instruct - 训练：SafeBench-Tiny（50个查询），1300步Adam，$\tau=0.5$, $\lambda_{\text{TV}}=0.5$

实验关键数据¶

主实验：黑盒ASR（SafeBench, 315查询）¶

目标模型	No Attack	FigStep	VAJM	UMK	UltraBreak
Qwen-VL-Chat	22.86	69.52	12.06	0.63	72.70
Qwen2.5-VL-7B	14.29	53.97	28.89	15.24	60.32
LLaVA-v1.6	80.32	47.94	57.46	20.63	88.25
GLM-4.1V-9B	46.03	88.25	67.62	50.79	66.03
黑盒平均	40.57	66.54	41.46	20.00	71.05
商业模型平均	20.00	-	11.48	14.59	32.26

消融实验¶

配置	SafeBench Avg	AdvBench Avg	说明
完整UltraBreak	71.83	57.64	—
去掉图像(纯文本)	40.79	25.90	图像贡献~30% ASR
去掉约束	51.99	29.86	白盒过拟合(89%→49%迁移)
去掉语义损失(用CE)	55.80	40.15	CE景观尖锐→迁移差
去掉注意力加权	57.54	41.83	优化不稳定+方差大

关键发现¶

单张图像通用攻击：训练时50个查询→可攻击315+有害查询×6+模型架构，一图打天下
语义损失 vs CE：语义损失产生的loss景观聚类且平滑，CE则scattered且spiky
变换不变结构：TV+随机变换让对抗图像呈现类文字/符号结构，这些高级特征比像素噪声更容易跨模型迁移
商业模型也不安全：Gemini-2.5达42% ASR, GPT-4.1-nano达38.78%

亮点与洞察¶

loss景观视角的核心洞察：将对抗可迁移性问题归结为loss景观平滑性问题，用语义损失替代CE来平滑景观。这个视角可迁移到所有对抗迁移性研究
变换不变性 = 模型不变性：通过输入侧随机变换让扰动学到高级语义特征而非低级像素模式，高级特征跨模型共享——这解释了为什么人类设计的文字图像(FigStep)也有跨模型效果
挑战了"需要多代理"的信念：此前认为跨模型迁移需要多个代理模型ensemble，UltraBreak证明单代理+正确的损失函数就够了

局限性 / 可改进方向¶

对高安全模型效果有限：Claude-3-haiku只有16% ASR，说明强防御模型仍然有效
依赖白盒代理：仍需一个开源VLM做白盒优化
防御方向：论文揭示了VLM对"变换不变视觉特征"的脆弱性，可据此设计检测/防御——如检测图像中是否包含类文字对抗结构
结合GuardAlign：UltraBreak的视觉攻击 vs GuardAlign的OT安全检测，两者是直接的矛盾对

评分¶

新颖性: ⭐⭐⭐⭐⭐ loss景观视角+语义损失+变换不变性的组合设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 6+开源模型+3商业模型×3基准×消融，非常全面
写作质量: ⭐⭐⭐⭐ 技术细节清晰，消融和可视化分析到位
价值: ⭐⭐⭐⭐⭐ 揭示了VLM安全的根本性脆弱性，对防御研究有重要指导