Beyond Linear Probes: Dynamic Safety Monitoring for Language Models¶
会议: ICLR 2026
arXiv: 2509.26238
代码: https://github.com/james-oldfield/tpc (有)
领域: 模型安全 / 激活空间监控 / AI安全
关键词: 截断多项式分类器, 安全监控, 动态推理, 线性探针, 激活空间
一句话总结¶
提出截断多项式分类器(TPC),通过对 LLM 激活空间中的多项式逐阶训练和截断评估,实现动态安全监控——在简单输入上用低阶(≈线性探针)快速决策,在困难输入上增加高阶项提供更强防护,在 WildGuardMix 和 BeaverTails 两个数据集上匹敌或超越 MLP 基线且具备内置可解释性。
研究背景与动机¶
领域现状:LLM 安全监控主要有两类方法——基于 LLM-as-Judge 的自然语言审查(昂贵但强大)和基于激活空间的线性探针(廉价但静态)。前者对每个查询都付出固定的高成本,后者只能提供最基本的静态防护线。
现有痛点: - 线性探针是静态的,无法根据输入难度或可用预算调节防护强度 - LLM-as-Judge 成本高,不适合作为始终在线的监控器 - 近期将两者级联的工作(如 McKenzie et al., 2025)仍需要额外的 LLM 微调/提示和额外的推理调用 - "线性表征假说"假设高级概念以一维子空间编码,但越来越多证据表明并非所有特征都有简单的线性结构
核心矛盾:安全监控存在固有的成本-精度权衡——大多数请求是良性的(不需要强防护),但少数模糊/恶意请求需要更强的分辨能力。现有方法要么全部按最高成本处理,要么全部按最低精度处理。
本文目标 - 如何让单个安全监控器在不同计算预算下都能工作? - 如何让监控器对简单输入快速放行、对困难输入深入检查? - 如何在提升分类能力的同时保持可解释性(相比黑盒 MLP)?
切入角度:借鉴 test-time compute scaling 的思想——计算资源应在推理时动态分配而非固定分配;多项式天然具有按阶截断的可加性结构,恰好适合实现渐进式计算。
核心 idea:将线性探针推广为可截断的多项式分类器,通过逐阶训练产生一系列嵌套子模型,在推理时按需截断评估——低阶恢复线性探针、高阶提供更强防护。
方法详解¶
整体框架¶
输入是 LLM 某一层的残差流表示 \(\bm{z} \in \mathbb{R}^D\)(对所有 token 做 mean pooling),输出是有害/无害的二分类概率。核心模型是一个 \(N\) 阶多项式,可在推理时截断为任意 \(n \leq N\) 阶的子模型,形式为 \(P_{:n}^{[N]}(\bm{z}) = w^{[0]} + \bm{z}^\top \bm{w}^{[1]} + \sum_{k=2}^{n} \sum_{r=1}^{R} \lambda_r^{[k]} (\bm{z}^\top \bm{u}_r^{[k]})^k\)。
关键设计¶
-
截断多项式分类器(TPC):
- 功能:用 \(N\) 阶多项式建模激活空间中神经元间的高阶交互,替代线性探针
- 核心思路:\(n=1\) 时退化为标准线性探针 \(w^{[0]} + \bm{z}^\top \bm{w}^{[1]}\);每增加一阶 \(k\),引入 \(k\) 个神经元间的乘性交互项。高阶权重张量用对称 CP 分解参数化:\(\mathcal{W}^{[k]} = \sum_{r=1}^{R} \lambda_r^{[k]} (\bm{u}_r^{[k]} \circ \cdots \circ \bm{u}_r^{[k]})\),每阶仅需 \(O(DR)\) 参数
- 设计动机:多项式的可加结构意味着后续项只是在前面项的 logits 上做精细修正,天然支持截断评估;对称分解消除了同一单项式的冗余参数
-
渐进式训练(Progressive Training):
- 功能:逐阶训练多项式的各阶项,确保每个截断子模型本身也是好的分类器
- 核心思路:第 \(k\) 阶参数 \(\bm{\theta}^{[k]}\) 通过最小化截断至 \(k\) 阶的 BCE 损失学习,同时冻结前 \(k-1\) 阶参数。第 1 阶直接继承线性探针的预训练权重
- 设计动机:如果直接训练完整 \(N\) 阶多项式再截断,截断后的子模型性能不可控(实验证实直接训练时截断性能剧烈波动)。渐进训练保证每个截断点都是一个有效的分类器,且新增阶数不影响已有截断的性能
-
级联防御(Cascading Defense):
- 功能:根据输入的困难程度动态决定使用几阶——简单输入在低阶快速退出,困难输入继续到高阶
- 核心思路:从 \(n=1\) 开始逐阶评估,在每阶检查 \(\sigma(s) \in (\tau, 1-\tau)\) 是否成立(\(\tau\) 为置信阈值)。若当前预测已足够确信(概率落在阈值外),立即输出;否则继续到下一阶。这类似于深度网络的 early-exit 策略
- 设计动机:大多数请求是良性的,线性探针就能高置信度分类;只对少量模糊/对抗性输入才需要更强的高阶模型。实验表明中高 \(\tau\) 值下,级联性能接近完整多项式,但净参数量仅略多于线性探针
-
内置特征归因:
- 功能:利用多项式的显式形式进行神经元级别的分类决策归因
- 核心思路:2阶项的贡献可分解为 \(c_{ij} = (w_{ij}^{[2]} + w_{ji}^{[2]}) z_i z_j\),直接量化任意两个 LLM 神经元 \((i,j)\) 的交互对分类 logits 的贡献
- 设计动机:MLP 是黑盒,无法追溯决策到具体神经元交互。TPC 的多项式形式天然可解释——可以精确说出"神经元 4830 与 4916 的交互使有害分类 logits 增加了 0.005"
损失函数 / 训练策略¶
- 每阶使用标准 BCE 损失训练,冻结前序阶参数
- 第 1 阶权重从 sklearn 线性探针初始化
- 实验中使用 \(N=5\), CP 秩 \(R=64\), 5 个随机种子
- 激活向量提取自中间层(gemma-3 用 L32/L40, gpt-oss/llama 用 L16/L20)
实验关键数据¶
主实验(WildGuardMix 静态评估, Test F1%)¶
| 方法 | gemma-3-27B | Qwen3-30B | gpt-oss-20b | Llama-3.2-3B |
|---|---|---|---|---|
| Linear probe | 88.03 | 85.53 | 86.70 | 83.24 |
| Bilinear probe | 88.79 | 84.87 | 87.13 | 84.78 |
| MLP | 88.49 | 85.48 | 87.86 | 83.77 |
| EE-MLP (5th exit) | 88.39 | 85.24 | 87.31 | 83.84 |
| TPC (5th order) | 88.86 | 85.57 | 88.05 | 84.48 |
级联防御效果(gemma-3-27B, L40)¶
| 配置 | 净参数量 | F1 | 说明 |
|---|---|---|---|
| Linear probe only (n=1) | 基准 | ~88.0 | 所有输入用线性探针 |
| Full TPC (n=5, 无级联) | 5× | ~88.9 | 所有输入用完整多项式 |
| Cascade (τ=中高) | ~1.1× | ~88.8 | 大部分输入在低阶退出 |
| Cascade (τ=高) | ~1.3× | ~88.9 | 接近完整多项式性能 |
关键发现¶
- TPC 在 WildGuardMix 上全面超越所有基线(含参数量匹配的 MLP),在 BeaverTails 上与 EE-MLP 基本持平
- 特定有害类别上,固定阶 TPC 相比线性探针最高提升 10% 准确率,相比 MLP 最高提升 6%
- 级联评估是最大亮点:中高τ值下性能接近完整多项式,但净参数量仅略多于线性探针——相当于几乎免费获得了更强防护
- 渐进训练 vs 直接训练:直接训练完整多项式后截断,各截断点性能不稳定;渐进训练确保每个截断点都是有效分类器
- 2阶 TPC 的神经元对归因能解释分类决策(如"核弹"提示中神经元 4830×2483 交互增加了有害 logits)
亮点与洞察¶
- "一个模型,多个安全预算"的理念是本文最核心的洞察——将 test-time compute scaling 的思想引入安全监控,用多项式的截断性质自然实现。这个设计思路可迁移到任何需要灵活精度的分类任务
- 渐进训练方案巧妙解决了截断多项式的训练-评估不一致问题。类比深度网络的 greedy layer-wise training,但应用于多项式阶数维度——保证低阶独立可用,高阶只做增量精修
- 对称 CP 分解既解决了高阶张量的参数爆炸问题,又提供了可解释的神经元交互归因。传统 MLP 无法做到的"精确追溯某对神经元对决策的贡献"在 TPC 中自然获得
局限与展望¶
- 未探索小数据场景——高阶多项式容易过拟合,可能需要更强正则化
- 神经元对归因虽然机械上忠实,但缺乏人类可读的语义解释——"神经元 4830×4916 交互"本身不告诉你"为什么"
- 性能并非随阶数单调递增,所有激活监控器都需要搜索合适的层
- 仅在 prompt 级别二分类上实验,未验证在更细粒度的安全分类(如具体有害类别检测)或 response 监控上的效果
- 改进思路:在 SAE 特征空间上做多项式展开可能同时获得稀疏性和可解释性;多层探针集成可避免单层选择的手动搜索
相关工作与启发¶
- vs Linear Probes (Alain & Bengio, 2017): 线性探针是 TPC 在 \(n=1\) 时的特例。TPC 保留了线性探针的所有优点(轻量、可解释),同时通过高阶项在需要时提供更强分类能力
- vs McKenzie et al. (2025) 级联方法: 他们用线性探针 + 外部 LLM 做两阶级联,需要额外的 LLM 微调。TPC 在单个多项式内部实现多层级联,无需外部模型,更轻量
- vs MLP Probes: MLP 可能更有表达力,但是黑盒——TPC 在参数量匹配时性能相当甚至更好,且提供内置的神经元交互归因
评分¶
- 新颖性: ⭐⭐⭐⭐ 多项式探针本身不新,但截断评估+渐进训练+级联防御的组合在安全监控中是首次,设计优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 4个模型(最大30B)、2个大规模数据集、多层扫描、级联消融、渐进训练对比、归因可视化,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰、公式严谨、Figure 1 直观,但部分符号略显冗余
- 价值: ⭐⭐⭐⭐ 为LLM安全监控提供了实用的动态方案,级联防御在实际部署中价值显著——用接近线性探针的成本获得非线性探针的性能
相关论文¶
- [ICLR 2026] GAVEL: Towards Rule-Based Safety through Activation Monitoring
- [ICLR 2026] Dynamic Reflections: Probing Video Representations with Text Alignment
- [NeurIPS 2025] Emergence of Linear Truth Encodings in Language Models
- [ICLR 2026] Dynamic Reflections: Probing Video Representations with Text-Driven Reasoning
- [NeurIPS 2025] Beyond Token Probes: Hallucination Detection via Activation Tensors with ACT-ViT