Detecting High-Stakes Interactions with Activation Probes¶

会议: NeurIPS 2025
arXiv: 2506.10805
代码: GitHub
领域: AI安全 / LLM监控
关键词: activation probes, 高风险检测, 级联监控, 合成数据, LLM安全

一句话总结¶

用线性激活探针（在 LLM 内部表示上训练的轻量分类器）检测用户的"高风险交互"，在合成数据上训练后跨 6 个真实数据集 AUROC 达 0.88-0.92，匹敌 8-12B 微调 LLM但计算成本低 6 个数量级，级联架构（探针初筛+LLM 精判）进一步超越单独使用任一方法。

领域现状：LLM 部署中需要检测高风险交互（如医疗建议、心理健康、红队攻击），以路由到人工审核或触发安全措施。
现有痛点：(a) 用另一个 LLM（如 GPT-4）监控所有交互成本极高（$0.01-0.10/query）；(b) 预定义规则无法覆盖"高风险"的模糊边界（是否高风险取决于上下文而非关键词）；(c) "高风险"本身是模糊概念——不明确的生成建议可能有害。
核心矛盾：需要实时、低成本的监控，但高风险检测需要深层语义理解（似乎只有大模型能做到）。
本文要解决什么：(1) 证明 LLM 内部表示已经包含了足够的高风险信号；(2) 用线性探针以极低成本提取这些信号；(3) 设计级联架构平衡精度和成本。
切入角度：LLM 的隐藏层在处理不同类型的文本时产生不同的激活模式——线性探针可以在这些模式上训练一个轻量分类器。
核心idea一句话：LLM 内部已"知道"交互是否高风险，线性探针只需以 <1% 推理开销就能提取该信号。

合成训练数据（GPT-4o 生成 ~10K 样本 + 多步过滤）→ 在 LLM 内部表示上训练线性探针（5 种架构）→ 在 6 个真实数据集上评估 → 设计级联系统（探针+LLM 组合）。

二元交叉熵损失。探针在合成数据上训练，评估在 6 个真实数据集（Anthropic HH-RLHF, ToolACE, MT Samples, MTS Dialog, Mental Health, Aya Redteaming）。

方法	Mean AUROC	TPR@1%FPR	计算成本
Attention Probe	0.88-0.92	~43%	~$10^{-6}$
微调 Llama-3.1-8B	~0.92	~48%	1×
微调 Gemma-3-12B	~0.87	—	~1.5×
Prompted Llama-3.3-70B	0.95+	~55%	~10×
级联（Probe + 8B微调）	超越两者	—	~0.4×

"LLM 内部已经知道"：这与 VLA 失败检测（SAFE 论文）的发现平行——模型内部表示包含了比输出更丰富的信号。探针只是一种极其便宜的信号提取方式。
级联架构的实用性：探针做初筛（快速排除绝大多数低风险交互），LLM 做精判（只处理不确定的少数）——这是工业级 LLM 安全监控的实际可行方案。
合成数据的 works：在 GPT-4o 合成数据上训练的探针，在 6 个不同的真实数据集上都有效——说明"高风险"的内部表示是通用的。