Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring¶

会议: ACL 2026
arXiv: 2512.12069
代码: sarendis56/Jailbreak_Detection_RCS
领域: AI安全 / 多模态VLM
关键词: 越狱检测, 表征对比评分, 大型视觉语言模型, OOD检测, 安全对齐

一句话总结¶

提出表征对比评分（RCS）框架，通过分析 LVLM 内部中间层表征的几何结构，用轻量投影和对比评分区分恶意意图与良性分布偏移，在跨攻击类型泛化的严格评估协议下实现 SOTA 越狱检测性能。

研究背景与动机¶

领域现状：大型视觉语言模型面临越来越多的多模态越狱攻击——对抗图像、跨模态提示注入、文本越狱迁移等。防御方法需要同时满足对未知攻击的泛化能力和实时部署的计算效率。

现有痛点：现有防御策略存在根本性矛盾。安全对齐和输入过滤器针对已知攻击模式设计，对新型攻击泛化能力差；基于一致性检查、梯度计算或多次推理的方法计算开销大，不适合高吞吐场景。轻量的异常检测方法（如 JailDAM）将越狱检测视为 OOD 问题，但其单类设计只建模良性分布，无法区分"恶意意图"和"良性分布偏移"，导致严重的过度拒绝问题。

核心矛盾：单类 OOD 检测将所有偏离良性分布的输入都视为恶意，但现实中大量未见过的合法输入也会偏离训练分布。JailDAM 在引入未见良性数据（如医学 VQA）后精确率从 94.9% 暴跌至 56.9%。

本文目标：设计一种既高效又能区分恶意意图与单纯分布偏移的检测方法。

切入角度：表征工程研究表明 LLM 的中间层表征编码了关于输入安全性的丰富语义信息，恶意和良性输入在特定层存在可分的几何签名。这些信号比 CLIP 等通用嵌入更具判别力。

核心 idea：检查 LVLM 内部中间层表征的几何结构，学习轻量投影最大化良性/恶意输入的分离度，用对比评分（到良性 vs 恶意样本的相对距离）进行判别。

方法详解¶

整体框架¶

RCS 分三步：(1) 通过几何分析原则性地选择最具判别力的安全关键层；(2) 学习轻量神经投影放大安全相关信号；(3) 在投影空间中基于到良性/恶意样本的相对距离计算对比评分。框架实例化为两种方法：参数化的 MCD（马氏距离对比检测）和非参数化的 KCD（K近邻对比检测）。

关键设计¶

安全关键层选择（Safety-Critical Layer Selection）:
- 功能：原则性地找到 LVLM 中安全信号最强的中间层
- 核心思路：使用 SGXSTest 数据集（语义近似的良性/恶意配对），计算每一层的三个互补指标——SVM 最大间隔分离度、轮廓系数（聚类凝聚度）、判别比（类间距/类内方差）。综合得分最高的层被选为最优层。实验一致发现中间层（LLaVA 的 14-16 层，Qwen 的 20-22 层）是"甜点区"
- 设计动机：早期层捕获低级特征，最终层过度特化于预训练目标，中间层编码高级语义抽象，最适合区分微妙的恶意意图
安全感知投影（Safety-Aware Projection）:
- 功能：将高维隐状态投影到低维空间并放大安全相关信号
- 核心思路：提取最后一个 token 在最优层的隐状态（解码前的聚合上下文），通过三层前馈网络投影到 256 维空间。投影目标结合两个损失：数据集聚类损失 \(\mathcal{L}_{dataset}\)（同数据集内聚、跨数据集分离）和安全分离损失 \(\mathcal{L}_{sep}\)（最大化良性/恶意质心距离）
- 设计动机：原始 4096 维特征受维度灾难影响（协方差估计和 kNN 搜索不稳定），且包含大量任务无关维度；投影后消除噪声并放大安全信号
对比评分（Contrastive Scoring）:
- 功能：通过到良性和恶意分布的相对距离判断输入安全性
- 核心思路：MCD 方法将每个数据集建模为独立高斯分布，使用 Ledoit-Wolf 收缩估计确保协方差数值稳定，评分为 \(s_{\text{MCD}} = \min_{d \in \text{benign}} D_M - \min_{d \in \text{malicious}} D_M\)。KCD 方法不做分布假设，归一化特征后计算到第 k 近良性/恶意邻居的距离差 \(s_{\text{KCD}} = \|z - z_{(k)}^{\text{benign}}\| - \|z - z_{(k)}^{\text{malicious}}\|\)
- 设计动机：对比评分近似最优贝叶斯决策所需的对数似然比，从根本上解决单类 OOD 方法无法区分分布偏移和恶意意图的问题

损失函数 / 训练策略¶

投影网络训练目标 \(\mathcal{L} = \alpha \mathcal{L}_{dataset} + \beta \mathcal{L}_{sep}\)。阈值 \(\theta\) 在训练集验证划分上校准，最大化平衡准确率和 F1 分数的加权组合。整个检测在解码前完成，避免生成有害内容。

实验关键数据¶

主实验¶

方法	模型	Accuracy (%)	AUROC (%)	AUPRC (%)	FPR (%)
MCD (本文)	LLaVA L16	91.0±2.3	98.6±0.1	98.8±0.1	15.2±5.2
KCD (本文)	LLaVA L16	92.0±2.1	97.7±0.9	97.2±1.2	10.1±6.1
HiddenDetect	LLaVA	81.6	90.1	90.0	16.8
JailDAM	CLIP	71.7	78.9	82.6	27.1
GradSafe	LLaVA	66.5	75.4	79.4	64.9

消融实验¶

配置	说明	关键结果
JailDAM 简化评估	单一良性数据集	AUROC 91.3%, Precision 94.9%
JailDAM 鲁棒评估	+ 未见良性数据	AUROC 70.6%, Precision 56.9%
无投影 (原始特征)	直接用高维隐状态	性能显著下降
PCA 降维	替代学习投影	不如安全感知投影

关键发现¶

LVLM 内部表征包含极其丰富的安全信号：简单的马氏距离 OOD 检测直接用 LLaVA 中间层特征即可达到 99.4% AUROC，远超 JailDAM 的 95.3%
中间层一致优于早期和最终层，且这个"甜点区"可以用噪声较大的非配对数据可靠识别
对比评分是关键：单类检测在引入未见良性数据后崩溃，对比框架保持鲁棒
两种实例化（MCD 和 KCD）都有效，说明框架的有效性不依赖特定分布假设

亮点与洞察¶

表征工程视角的安全检测：不依赖外部模型或多次推理，仅用目标 LVLM 自身的一次前向传播的中间层特征，计算开销极低。这个思路可迁移到任何 LLM 的安全防护场景
原则性层选择方法：用三个互补几何指标联合评估层的判别力，避免了手动选层的不确定性，且结论在不同模型间一致（中间层最佳）
对比评分 vs 单类检测：JailDAM 精确率暴跌的实验是一个极其有力的 motivation，清楚说明了为什么需要同时建模良性和恶意分布

局限与展望¶

需要少量恶意样本参与训练投影网络，虽然不需要与测试攻击类型相同，但零恶意样本场景下不适用
评估限于三个 LVLM 和有限的攻击类型，更广泛的模型和攻击覆盖有待验证
投影维度（256）和 kNN 的 k 值（50）是手动设定的，自动选择可能进一步提升性能
可探索：将 RCS 与安全对齐结合形成双保险、动态层选择（推理时自适应选层）

评分¶

新颖性: ⭐⭐⭐⭐ 将表征工程和 OOD 检测巧妙结合用于多模态越狱检测，思路清晰且有效
实验充分度: ⭐⭐⭐⭐⭐ 跨模型、跨攻击类型的严格评估，消融和 motivation 实验设计精妙
写作质量: ⭐⭐⭐⭐⭐ 论证逻辑严密，从 motivation 实验到方法设计到验证一气呵成
价值: ⭐⭐⭐⭐ 为 LVLM 安全部署提供了实用且高效的检测方案