TrajGuard: Streaming Hidden-state Trajectory Detection for Decoding-time Jailbreak Defense¶

会议: ACL 2026
arXiv: 2604.07727
代码: 无
领域: LLM对齐 / AI安全
关键词: 越狱防御, 隐藏状态轨迹, 解码时检测, 实时安全, 无训练防御

一句话总结¶

本文提出 TrajGuard，一种无需训练的解码时越狱防御框架，通过滑动窗口聚合关键层隐藏状态轨迹实时量化风险，仅在风险持续超过阈值时触发轻量级语义裁判，在 12 种越狱攻击上实现 95% 平均防御率，检测延迟仅 5.2ms/token，误报率低于 1.5%。

研究背景与动机¶

领域现状：LLM 已深度集成到现实服务中，其安全性至关重要。尽管经过严格的安全对齐训练（RLHF等），精心构造的越狱攻击仍能绕过安全护栏，在经过 RLHF 对齐的模型上实现高攻击成功率。

现有痛点：现有防御主要依赖静态检测——要么在输入端过滤提示（如 Llama Guard），要么在输出端检查完整回复。输入端过滤无法检测语义伪装的越狱提示，输出端过滤虽然更有效但需要生成完整回复后才能审查，引入不可忽略的端到端延迟。一些利用模型内部激活的方法仍然操作于静态的提示表示上，且依赖高维几何分数，可解释性差。

核心矛盾：越狱风险不是在某个时刻瞬间触发的，而是在解码过程中通过上下文的恶意意图逐步积累形成的。现有方法将安全检测视为离散的二分类任务，忽略了解码过程中语义的动态演化——这是当前防御范式的关键盲区。

本文目标：利用解码过程中隐藏状态的动态轨迹来实现实时越狱检测，不依赖额外训练的安全模型。

切入角度：作者通过实证分析发现了一个关键的"伪装-暴露"模式：越狱提示在潜空间中与良性提示纠缠（语义伪装），但一旦模型开始生成具体的有害步骤，隐藏状态就会持续漂移向恶意区域。这种漂移在早期解码片段中就已出现。

核心 idea：将解码过程中隐藏状态的时序轨迹作为越狱检测信号，通过"流式几何监控 + 按需语义裁判"的粗到细架构，实现低开销、实时的越狱拦截。

方法详解¶

整体框架¶

TrajGuard 采用粗到细的层次架构，包含两个协同组件：(1) SGS（流式几何监控）持续监控隐藏状态轨迹作为第一道防线，使用轻量级向量计算筛查潜在风险段；(2) PAIR-Judge（提示-回答推理裁判）仅在 SGS 检测到持续异常时被触发，提供准确的语义裁决。对于几乎所有良性交互，TrajGuard 仅依赖 SGS 模块运行在低开销的"仅监控"模式。

关键设计¶

流式几何监控 (SGS):
- 功能：从嘈杂的隐藏状态流中提取稳定的风险信号，实时判断解码路径是否偏离良性行为
- 核心思路：首先用 MVD（均值向量差异）指标选择 Top-K（K=8）关键层；在选定层上建模良性/恶意模式的高斯分布。解码时计算每个 token 隐藏状态到良性和恶意质心的 Mahalanobis 距离之差 \(r_{l,t} = d^{\mathcal{B}}_{l,t} - d^{\mathcal{M}}_{l,t}\)；通过三阶段聚合：层内滑动窗口（w=8）截断均值 → 跨层平均 → EWMA 时序平滑，得到稳定的流式风险分数 \(p_t\)；仅当风险分数连续 k=3 步超过阈值 γ 时才触发警报
- 设计动机：单步 token 的风险判断噪声大，真正的越狱表现为持续驻留在高风险区域。滞后触发机制有效抑制了瞬态几何噪声，确保仅持续的恶意意图才触发昂贵的裁判过程
提示-回答推理裁判 (PAIR-Judge):
- 功能：对 SGS 标记的异常进行语义级别的安全裁决，将高维内部信号转化为可解释的安全决策
- 核心思路：当 SGS 触发警报时暂停生成，将当前上下文（提示 x + 已生成前缀 \(y_{\leq t}\)）包装进安全系统提示，送入安全对齐的 LLM 进行 SAFE/UNSAFE 二元判决 \(d = \mathcal{M}_{judge}(\mathcal{P}(x, y_{\leq t}))\)。如果判定 UNSAFE 则立即终止生成
- 设计动机：几何接近恶意区域不等同于语义上的恶意。需要语义层面的验证来避免误判，同时保持可解释性
闭环状态重置 (State Reset):
- 功能：当 PAIR-Judge 判定 SAFE 时，清除 SGS 积累的"假阳性"风险动量
- 核心思路：如果语义裁判认为当前内容安全，则将 SGS 的风险分数 \(S_t\) 强制重置为初始安全值，防止系统因历史几何偏差在后续解码中反复触发警报
- 设计动机：没有状态重置，一次误触发可能导致后续连锁误报，严重影响正常使用

损失函数 / 训练策略¶

TrajGuard 是完全无训练的框架。只需要一个预处理步骤：使用 8,000 条良性指令和 10,000 条恶意指令来估计隐藏空间中的安全/不安全区域分布（质心和协方差矩阵），采用收缩正则化 \(\widehat{\Sigma}_{\star,l} = \Sigma_{\star,l} + \lambda I\) 增强高维空间中的数值稳定性。

实验关键数据¶

主实验¶

模型	防御方法	12种攻击平均ASR↓	最佳单攻击ASR
Llama-2-7B	No Defense	0.52	-
Llama-2-7B	Llama Guard 3	0.20	GCG: 0.02
Llama-2-7B	Qwen3Guard	0.07	GCG: 0.00
Llama-2-7B	TrajGuard	0.02	多数攻击: 0.00
Llama-3.1-8B	No Defense	0.57	-
Llama-3.1-8B	TrajGuard	0.04	-
Mistral-7B	No Defense	0.75	-
Mistral-7B	TrajGuard	0.05	-

指标	TrajGuard 表现
平均防御率	95%
检测延迟	5.2 ms/token
误报率 (XSTest)	< 1.5%
Alpaca 正常任务保持率	高（详见论文）

消融实验¶

配置	关键影响	说明
Full TrajGuard	AVG ASR ≈ 0.02-0.05	完整模型
w/o PAIR-Judge	误报率上升	仅靠几何监控会将安全但敏感的内容误判
w/o State Reset	连锁误报	误触发后后续解码持续报警
w/o 持续性触发	噪声增加	单步判断容易被瞬态波动影响
不同窗口大小 w	w=8 最优	太小噪声大，太大延迟高

关键发现¶

隐藏状态轨迹比输入提示提供更强更稳定的越狱信号：越狱提示在潜空间中与良性提示纠缠（t=0时重叠），但解码开始后隐藏状态持续向恶意区域漂移
不同模型的"漂移延迟"差异显著：Llama-2-7B 在 37 步后才开始恶化，而 Vicuna-7B 几乎立即下降，反映了不同模型安全对齐的鲁棒性差异
TrajGuard 在多数攻击上将 ASR 降至接近 0，尤其在 GCG、AutoDAN、PAIR 等主流攻击上表现突出
Cipher 类攻击是唯一仍有一定成功率的攻击类型（ASR 0.10-0.25），可能因为加密输入在隐藏空间中的表示模式与常规越狱不同

亮点与洞察¶

"伪装-暴露"观察非常精妙：越狱提示的语义伪装在输入阶段有效，但模型一旦开始生成具体有害步骤，内部表示就不可避免地向恶意区域漂移。这个观察将越狱检测从静态分类问题转化为动态轨迹监控问题
粗到细的层次设计实用性强：绝大部分时间仅运行轻量级的几何监控（5.2ms/token），只有疑似风险时才调用昂贵的语义裁判，实现了精度和效率的极佳平衡
完全无训练的特性使其可即插即用到任何开源 LLM，无需额外安全数据或微调成本
闭环状态重置机制可以迁移到其他异常检测系统中，解决"一次误报导致连锁反应"的通用问题

局限与展望¶

需要预先构建良性/恶意区域的分布估计，依赖 8K+10K 标注数据的质量和覆盖范围
对 Cipher 类加密攻击防御效果相对较弱，隐藏状态可能未充分暴露加密输入的恶意意图
仅在 7B-8B 规模的开源模型上验证，对更大规模或闭源模型的适用性未知
PAIR-Judge 使用目标模型本身作为裁判，在模型安全对齐较弱时裁判质量可能下降

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将解码时隐藏状态轨迹用于越狱检测，"伪装-暴露"观察新颖且有说服力
实验充分度: ⭐⭐⭐⭐⭐ 12种攻击、4个模型、多个基线、完整消融，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，动机推导自然，图表丰富
价值: ⭐⭐⭐⭐⭐ 无训练、低延迟、高防御率的实时防御方案，实用价值极高