Beyond Linear Probes: Dynamic Safety Monitoring for Language Models¶

会议: ICLR 2026
arXiv: 2509.26238
代码: https://github.com/james-oldfield/tpc (有)
领域: 模型安全 / 激活空间监控 / AI安全
关键词: 截断多项式分类器, 安全监控, 动态推理, 线性探针, 激活空间

一句话总结¶

提出截断多项式分类器（TPC），通过对 LLM 激活空间中的多项式逐阶训练和截断评估，实现动态安全监控——在简单输入上用低阶（≈线性探针）快速决策，在困难输入上增加高阶项提供更强防护，在 WildGuardMix 和 BeaverTails 两个数据集上匹敌或超越 MLP 基线且具备内置可解释性。

研究背景与动机¶

领域现状：LLM 安全监控主要有两类方法——基于 LLM-as-Judge 的自然语言审查（昂贵但强大）和基于激活空间的线性探针（廉价但静态）。前者对每个查询都付出固定的高成本，后者只能提供最基本的静态防护线。

现有痛点： - 线性探针是静态的，无法根据输入难度或可用预算调节防护强度 - LLM-as-Judge 成本高，不适合作为始终在线的监控器 - 近期将两者级联的工作（如 McKenzie et al., 2025）仍需要额外的 LLM 微调/提示和额外的推理调用 - "线性表征假说"假设高级概念以一维子空间编码，但越来越多证据表明并非所有特征都有简单的线性结构

核心矛盾：安全监控存在固有的成本-精度权衡——大多数请求是良性的（不需要强防护），但少数模糊/恶意请求需要更强的分辨能力。现有方法要么全部按最高成本处理，要么全部按最低精度处理。

本文目标 - 如何让单个安全监控器在不同计算预算下都能工作？ - 如何让监控器对简单输入快速放行、对困难输入深入检查？ - 如何在提升分类能力的同时保持可解释性（相比黑盒 MLP）？

切入角度：借鉴 test-time compute scaling 的思想——计算资源应在推理时动态分配而非固定分配；多项式天然具有按阶截断的可加性结构，恰好适合实现渐进式计算。

核心 idea：将线性探针推广为可截断的多项式分类器，通过逐阶训练产生一系列嵌套子模型，在推理时按需截断评估——低阶恢复线性探针、高阶提供更强防护。

方法详解¶

整体框架¶

输入是 LLM 某一层的残差流表示 \(\bm{z} \in \mathbb{R}^D\)（对所有 token 做 mean pooling），输出是有害/无害的二分类概率。核心模型是一个 \(N\) 阶多项式，可在推理时截断为任意 \(n \leq N\) 阶的子模型，形式为 \(P_{:n}^{[N]}(\bm{z}) = w^{[0]} + \bm{z}^\top \bm{w}^{[1]} + \sum_{k=2}^{n} \sum_{r=1}^{R} \lambda_r^{[k]} (\bm{z}^\top \bm{u}_r^{[k]})^k\)。

关键设计¶

截断多项式分类器（TPC）:
- 功能：用 \(N\) 阶多项式建模激活空间中神经元间的高阶交互，替代线性探针
- 核心思路：\(n=1\) 时退化为标准线性探针 \(w^{[0]} + \bm{z}^\top \bm{w}^{[1]}\)；每增加一阶 \(k\)，引入 \(k\) 个神经元间的乘性交互项。高阶权重张量用对称 CP 分解参数化：\(\mathcal{W}^{[k]} = \sum_{r=1}^{R} \lambda_r^{[k]} (\bm{u}_r^{[k]} \circ \cdots \circ \bm{u}_r^{[k]})\)，每阶仅需 \(O(DR)\) 参数
- 设计动机：多项式的可加结构意味着后续项只是在前面项的 logits 上做精细修正，天然支持截断评估；对称分解消除了同一单项式的冗余参数
渐进式训练（Progressive Training）:
- 功能：逐阶训练多项式的各阶项，确保每个截断子模型本身也是好的分类器
- 核心思路：第 \(k\) 阶参数 \(\bm{\theta}^{[k]}\) 通过最小化截断至 \(k\) 阶的 BCE 损失学习，同时冻结前 \(k-1\) 阶参数。第 1 阶直接继承线性探针的预训练权重
- 设计动机：如果直接训练完整 \(N\) 阶多项式再截断，截断后的子模型性能不可控（实验证实直接训练时截断性能剧烈波动）。渐进训练保证每个截断点都是一个有效的分类器，且新增阶数不影响已有截断的性能
级联防御（Cascading Defense）:
- 功能：根据输入的困难程度动态决定使用几阶——简单输入在低阶快速退出，困难输入继续到高阶
- 核心思路：从 \(n=1\) 开始逐阶评估，在每阶检查 \(\sigma(s) \in (\tau, 1-\tau)\) 是否成立（\(\tau\) 为置信阈值）。若当前预测已足够确信（概率落在阈值外），立即输出；否则继续到下一阶。这类似于深度网络的 early-exit 策略
- 设计动机：大多数请求是良性的，线性探针就能高置信度分类；只对少量模糊/对抗性输入才需要更强的高阶模型。实验表明中高 \(\tau\) 值下，级联性能接近完整多项式，但净参数量仅略多于线性探针
内置特征归因:
- 功能：利用多项式的显式形式进行神经元级别的分类决策归因
- 核心思路：2阶项的贡献可分解为 \(c_{ij} = (w_{ij}^{[2]} + w_{ji}^{[2]}) z_i z_j\)，直接量化任意两个 LLM 神经元 \((i,j)\) 的交互对分类 logits 的贡献
- 设计动机：MLP 是黑盒，无法追溯决策到具体神经元交互。TPC 的多项式形式天然可解释——可以精确说出"神经元 4830 与 4916 的交互使有害分类 logits 增加了 0.005"

损失函数 / 训练策略¶

每阶使用标准 BCE 损失训练，冻结前序阶参数
第 1 阶权重从 sklearn 线性探针初始化
实验中使用 \(N=5\), CP 秩 \(R=64\), 5 个随机种子
激活向量提取自中间层（gemma-3 用 L32/L40, gpt-oss/llama 用 L16/L20）

实验关键数据¶

主实验（WildGuardMix 静态评估, Test F1%）¶

方法	gemma-3-27B	Qwen3-30B	gpt-oss-20b	Llama-3.2-3B
Linear probe	88.03	85.53	86.70	83.24
Bilinear probe	88.79	84.87	87.13	84.78
MLP	88.49	85.48	87.86	83.77
EE-MLP (5th exit)	88.39	85.24	87.31	83.84
TPC (5th order)	88.86	85.57	88.05	84.48

级联防御效果（gemma-3-27B, L40）¶

配置	净参数量	F1	说明
Linear probe only (n=1)	基准	~88.0	所有输入用线性探针
Full TPC (n=5, 无级联)	5×	~88.9	所有输入用完整多项式
Cascade (τ=中高)	~1.1×	~88.8	大部分输入在低阶退出
Cascade (τ=高)	~1.3×	~88.9	接近完整多项式性能

关键发现¶

TPC 在 WildGuardMix 上全面超越所有基线（含参数量匹配的 MLP），在 BeaverTails 上与 EE-MLP 基本持平
特定有害类别上，固定阶 TPC 相比线性探针最高提升 10% 准确率，相比 MLP 最高提升 6%
级联评估是最大亮点：中高τ值下性能接近完整多项式，但净参数量仅略多于线性探针——相当于几乎免费获得了更强防护
渐进训练 vs 直接训练：直接训练完整多项式后截断，各截断点性能不稳定；渐进训练确保每个截断点都是有效分类器
2阶 TPC 的神经元对归因能解释分类决策（如"核弹"提示中神经元 4830×2483 交互增加了有害 logits）

亮点与洞察¶

"一个模型，多个安全预算"的理念是本文最核心的洞察——将 test-time compute scaling 的思想引入安全监控，用多项式的截断性质自然实现。这个设计思路可迁移到任何需要灵活精度的分类任务
渐进训练方案巧妙解决了截断多项式的训练-评估不一致问题。类比深度网络的 greedy layer-wise training，但应用于多项式阶数维度——保证低阶独立可用，高阶只做增量精修
对称 CP 分解既解决了高阶张量的参数爆炸问题，又提供了可解释的神经元交互归因。传统 MLP 无法做到的"精确追溯某对神经元对决策的贡献"在 TPC 中自然获得

局限与展望¶

未探索小数据场景——高阶多项式容易过拟合，可能需要更强正则化
神经元对归因虽然机械上忠实，但缺乏人类可读的语义解释——"神经元 4830×4916 交互"本身不告诉你"为什么"
性能并非随阶数单调递增，所有激活监控器都需要搜索合适的层
仅在 prompt 级别二分类上实验，未验证在更细粒度的安全分类（如具体有害类别检测）或 response 监控上的效果
改进思路：在 SAE 特征空间上做多项式展开可能同时获得稀疏性和可解释性；多层探针集成可避免单层选择的手动搜索

评分¶

新颖性: ⭐⭐⭐⭐ 多项式探针本身不新，但截断评估+渐进训练+级联防御的组合在安全监控中是首次，设计优雅
实验充分度: ⭐⭐⭐⭐⭐ 4个模型（最大30B）、2个大规模数据集、多层扫描、级联消融、渐进训练对比、归因可视化，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰、公式严谨、Figure 1 直观，但部分符号略显冗余
价值: ⭐⭐⭐⭐ 为LLM安全监控提供了实用的动态方案，级联防御在实际部署中价值显著——用接近线性探针的成本获得非线性探针的性能