JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models¶

会议: NeurIPS 2025
arXiv: 2505.19610
代码: 待确认
领域: 多模态VLM / AI安全 / 对抗攻击
关键词: jailbreak, safety boundary, latent space attack, ELK, cross-modal perturbation

一句话总结¶

受 Eliciting Latent Knowledge (ELK) 框架启发，首次揭示 VLM 在 fusion layer 潜空间中存在可近似的安全决策边界，提出 JailBound 两阶段攻击框架（Safety Boundary Probing + Safety Boundary Crossing），通过联合优化图像和文本对抗扰动跨越该边界，在白盒和黑盒场景分别达到 94.32% 和 67.28% 平均攻击成功率，显著超越 SOTA。

研究背景与动机¶

领域现状：VLM 通过集成视觉编码器与 LLM 获得强大多模态能力，但视觉模态的引入显著扩大了攻击面。现有 jailbreak 攻击方法包括基于梯度的白盒攻击和基于查询反馈的黑盒攻击。
现有痛点：(a) 缺乏明确的攻击目标导致梯度优化容易陷入局部最优，缺少精确的方向指引；(b) 大多数方法将视觉和文本模态解耦处理，忽略跨模态交互。
核心矛盾：VLM 的安全对齐虽然抑制了有害输出，但模型内部仍然编码了与安全相关的知识（类似 ELK 研究中发现的"模型知道但不说"的现象）。这种潜在知识为攻击提供了可利用的结构。
切入角度：如果 VLM 在 fusion layer 的潜在表示中存在安全/不安全的决策边界，那么精确找到并跨越这个边界就能系统性地绕过安全机制。
核心 idea：先用线性分类器探测 fusion layer 中的安全决策超平面，再用三目标联合优化驱动图像+文本对抗扰动跨越该边界。

方法详解¶

整体框架¶

JailBound 分两个阶段： - Stage 1 - Safety Boundary Probing：在每个 fusion layer 训练 logistic regression 分类器来近似安全决策超平面，获取法向量 \(v^{(l)}\) 和跨越距离 \(\varepsilon^{(l)}\) - Stage 2 - Safety Boundary Crossing：联合优化视觉扰动 \(\delta_v^{\text{input}}\) 和文本后缀 \(X_t^{\text{suffix}}\)，使融合表示跨越决策边界进入不安全区域

关键设计¶

Safety Boundary Probing：
做什么：在每个 fusion layer 近似安全决策超平面
核心思路：构造数据集 \(\mathbb{D} = \{(h^{(i)}, y^{(i)})\}\)，\(h^{(i)} = \phi(x_v^{(i)}, x_t^{(i)})\) 为融合表示，\(y^{(i)} \in \{0,1\}\) 为安全标签。训练 logistic regression \(P_m(x_v, x_t) = \sigma(w^\top \phi(x_v, x_t) + b)\)。决策边界为 \(\mathcal{B}^{(l)}(w,b) = \{h^{(l)} | (w^{(l)})^\top h^{(l)} + b^{(l)} = 0\}\)。法向量 \(v^{(l)} = w^{(l)}/\|w^{(l)}\|_2\)，跨越距离 \(\varepsilon^{(i)} = |\sigma^{-1}(P_0) - (w^\top h^{(i)} + b)|/\|w\|_2\)
设计动机：100% 分类准确率证明 VLM 内部确实存在清晰的线性可分安全边界，这为后续攻击提供了精确目标，彻底解决了"梯度优化缺少方向"的问题
Adversarial Alignment Loss \(\mathcal{L}_{\text{align}}\)：
做什么：引导扰动后的融合表示向目标区域移动
核心思路：\(\mathcal{L}_{\text{align}}^{(l)} = \|\phi^{(l)}(\tilde{x}_v, \tilde{x}_t) - h_{\text{target}}^{(l)}\|_2^2\)，其中 \(h_{\text{target}}^{(l)} = \phi^{(l)}(x_v, x_t) - \varepsilon^{(l)} \cdot v^{(l)}\)，即原始表示沿法向量方向偏移
设计动机：提供了精确的优化目标，避免盲目梯度搜索
Geometric Boundary Loss \(\mathcal{L}_{\text{geo}}\)：
做什么：确保扰动方向沿法向量轨迹移动
核心思路：\(\mathcal{L}_{\text{geo}}^{(l)} = \|\frac{\Delta h^{(l)}}{\|\Delta h^{(l)}\|_2} - v^{(l)}\|_2^2\)，其中 \(\Delta h^{(l)} = \phi^{(l)}(\tilde{x}_v, \tilde{x}_t) - \phi^{(l)}(x_v, x_t)\)
设计动机：防止优化"走弯路"，确保扰动的几何效率最优
Semantic Preservation Loss \(\mathcal{L}_{\text{sem}}\)：
做什么：约束扰动大小以保持语义一致性
核心思路：\(\mathcal{L}_{\text{sem}} = \|\delta_v^{\text{input}}\|_2^2 + \mathcal{L}_{\text{suffix}}(X_t^{\text{suffix}})\)，视觉扰动限制 \(L_\infty\) 范数 \(\leq 8/255\)
跨模态联合优化：
视觉扰动：连续空间梯度下降 \(\delta_v^{\text{input}(k+1)} = \Pi_{\Gamma_v}[\delta_v^{\text{input}(k)} - \eta_v \nabla_{\delta_v} \mathcal{L}]\)
文本扰动：计算 embedding 空间梯度 \(\delta_t^{\text{emb}} = -\eta_t \nabla_{x_t}\mathcal{L}\)，然后通过最近邻搜索选择真实 token \(t_j^{\text{suffix}} = \arg\min_{v\in V} \|E(v) - (x_t^{(j)} + \delta_t^{\text{emb}(j)})\|_2\)
设计动机：同时扰动两个模态，利用跨模态交互产生比单模态更强的攻击效果

训练策略¶

总损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{align}} + \lambda_1 \mathcal{L}_{\text{sem}} + \lambda_2 \mathcal{L}_{\text{geo}}\)，\(\lambda_1=2.0, \lambda_2=1.0\)
安全阈值 \(P_0 = 0.3\)，视觉学习率 \(\eta_v=0.001\)，文本学习率 \(\eta_t=0.0005\)
文本后缀长度 20 tokens，优化 100-150 iterations
基于 MM-SafetyBench 数据集（13 类禁止内容，1719 样本）

实验关键数据¶

主实验 — 白盒攻击成功率 (ASR)¶

类别	方法	Llama-3.2-11B	Qwen2.5-VL-7B	MiniGPT-4
Illegal Activity	Baseline (I0+T0)	51.47%	2.94%	42.65%
	联合攻击 (I1+T1)	88.24%	64.71%	95.59%
	JailBound {I1,T1}	95.59%	82.35%	100.00%
Hate Speech	Baseline	63.16%	12.28%	56.14%
	JailBound	95.61%	89.47%	96.49%
Physical Harm	Baseline	70.30%	28.71%	43.56%
	JailBound	97.03%	87.13%	97.03%

攻击配置对比¶

配置	说明	白盒平均 ASR
I0+T0	无攻击 baseline	~50%
I0+T1	仅文本攻击	~75%
I1+T0	仅视觉攻击	~72%
I1+T1	联合（非迭代）	~87%
{I1,T1}	迭代联合（JailBound）	~94%

黑盒迁移攻击¶

目标模型	JailBound ASR	对比 SOTA 提升
GPT-4o	75.24%	+21.13%
Gemini 2.0 Flash	70.06%	显著超越
Claude 3.5 Sonnet	56.55%	显著超越

关键发现¶

迭代联合攻击 {I1,T1} 比非迭代联合 I1+T1 平均高约 7%，证明迭代优化的交叉增强效果
在 Qwen2.5-VL-7B 上 baseline ASR 极低（部分低于 10%），但 JailBound 仍能达到 80%+，说明方法对安全对齐较强的模型同样有效
Safety Boundary Probing 在所有 fusion layer 达到 100% 分类准确率，证实安全边界的线性可分性
黑盒迁移性极强，特别是对 GPT-4o 达到 75.24%，远超此前方法

亮点与洞察¶

ELK 到 VLM 安全的迁移非常有洞察力：将"模型内部知道真相"的理论应用于安全场景，发现 VLM 的安全决策存在清晰的线性边界
三目标设计思路精巧：alignment 给方向，geometric 给约束，semantic 给保真，三者互补形成稳健的优化
迭代交替优化策略处理了连续（图像）和离散（文本）两种不同性质的优化问题
方法揭示了一个深层安全隐患：即使经过强安全对齐，决策边界仍是线性可分的，攻击者可以精确找到并跨越

局限性 / 可改进方向¶

攻击方法的公开可能被恶意使用（不过作为安全研究这也是推动防御进步的必要代价）
白盒阶段需要完整模型访问权限，实际部署场景中往往只有 API 访问
文本后缀长度固定为 20 tokens，可能不够灵活
100%的决策边界分类准确率可能暗示安全对齐过于简单——是否可以通过非线性安全嵌入来增强防御？
防御方面缺乏讨论——如何利用 probing 结果来加固安全边界？

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 ELK 理论引入 VLM 安全攻击，safety boundary probing 概念新颖且实用
实验充分度: ⭐⭐⭐⭐ 6 个 VLM + 13 类安全场景 + 白盒/黑盒全面覆盖，但缺少防御方法对比
写作质量: ⭐⭐⭐⭐ 框架清晰，数学形式化完整，但部分符号较多可以精简
价值: ⭐⭐⭐⭐⭐ 对 VLM 安全领域有重要警示意义，揭示了线性安全边界的脆弱性，推动更强防御研究