GAVEL: Towards Rule-Based Safety through Activation Monitoring¶

会议: ICLR 2026
arXiv: 2601.19768
代码: 开源（待发布）
领域: AI安全 / 可解释性
关键词: 激活监控, 认知元素, 规则化安全, 可解释AI治理, LLM安全

一句话总结¶

借鉴网络安全中 Snort/YARA 规则集的理念，提出将 LLM 内部激活分解为 23 个细粒度"认知元素"（CE），再通过布尔逻辑组合为可审计的安全规则，在 Mistral-7B 上以 <1% 推理开销实现 9 类误用场景平均 AUC 0.99、FPR 0.004 的实时检测，并天然支持跨语言、跨模型迁移。

研究背景与动机¶

领域现状：LLM 安全防护正从表面文本过滤向模型内部激活（activation）监控演进。表面审查容易被改写、混淆等"表示攻击"绕过，而隐状态能更忠实地反映模型的真实认知意图。当前主流做法是：收集某个粗粒度误用类别（如"网络犯罪""仇恨言论"）的激活数据集，训练线性探针或分类器来检测该类有害行为。

现有痛点：这种"一类一分类器"的范式存在三个结构性缺陷。（1）精度低：粗粒度类别把大量不同语义压入同一个分类边界。例如仇恨言论检测器会将关于少数族裔文化的正常讨论误报为有害。钓鱼检测器在 Phishing 类别上 FPR 高达 0.35。（2）灵活性差：企业若需增加知识产权侵权、内部合规等新检测维度，必须从头收集数据集并重训分类器，每类需数千条激活样本，扩展至数百类别时成本极高。（3）不可解释：分类器触发告警时，用户无法知道具体是哪些行为因素导致了触发，阻碍审计和问责。

核心矛盾：实际安全需求是精确+可定制+可解释的，而现有激活安全方法是粗粒度+固定+黑盒的。根源在于现有方法将"激活工程"（数据集构建）和"安全策略"（定义何为违规）耦合在一起——每换一个策略就要从数据到模型全链路重做。

本文目标 三个核心子问题：如何定义可解释、可组合的激活级行为原语？如何用这些原语拼装灵活的安全规则，使策略更新无需重训检测器？如何支持社区协作式的规则共享生态？

切入角度：网络安全领域已经用 Snort/YARA/Sigma 证明了"社区共享规则集"模式的有效性——将检测能力封装为人类可读的规则，任何组织可选用、组合、审计。如果把 AI 安全的检测单元从"粗粒度误用类别"拆解为更小的"认知元素"，就能像编写防火墙规则一样编写安全策略。

核心 idea：将 LLM 行为分解为 23 个独立的认知元素，每个 CE 单独训练检测器，再用布尔逻辑 \(\wedge/\vee/\neg\) 组合 CE 来精确定义违规行为——彻底解耦"感知能力"与"策略配置"。

方法详解¶

整体框架¶

GAVEL 的工作流分为四阶段。阶段 1：定义 CE 词汇表（23 个元素，三大类）并编写布尔规则，可复用社区公开的规则集。阶段 2：对每个 CE 构建激励数据集 \(\mathcal{D}_c\)，用 ERI 策略通过目标 LLM 提取激活向量 \(\mathbf{H}_c\)。阶段 3：在所有 CE 的激活数据上训练一个轻量多标签 RNN 分类器 \(g\)。阶段 4：推理时逐 token 提取激活 → 分类器预测 CE 存在性 → 在时间窗口 \(W_t\) 内聚合 CE 出现情况 → 布尔规则判定是否违规并执行动作（阻断/替换/转向）。核心优势在于 CE 数据集和规则都是纯文本、模型无关的，跨模型复用只需重新提取激活即可。

关键设计¶

认知元素 (CE) 词汇表：
- 功能：提供可组合的激活级行为原语，作为安全规则的"字母表"
- 核心思路：CE 覆盖模型行为的三个维度——(a) 对用户的指令（7 个：购买、点击/输入、下载/安装、前往某地、授权/批准、提供/给予、发送/转账）；(b) LLM 自身行为（9 个：创建内容、建立信任、SQL查询构造、情感参与、威胁、传播仇恨言论、伪装人类、阿谀奉承、散布阴谋论）；(c) 话题（7 个：税务、错误SQL语法、选举政治、个人信息、支付工具、LGBTQ+、种族身份）。关键性质是正交可组合——"处理支付"本身无害，"处理支付 \(\wedge\) 伪装人类 \(\wedge\) 建立信任"才精确描述诈骗行为。这种设计使单个 CE 可被无数规则复用，社区可像共享威胁指标（IoC）一样贡献 CE
- 设计动机：粗粒度误用类别把不相关信号混入同一分类器，CE 的细粒度语义隔离直接消除了这个问题
激励重写指令 (ERI) 数据生成：
- 功能：为每个 CE 生成高信噪比的激活数据，确保模型内部计算聚焦于目标概念
- 核心思路：直接用文本 prefill 并收集激活（naive baseline）产生的信号弱且噪声大。ERI 的做法是给模型一个指令："请以 [CE 名称] 的方式改写以下文本"，强迫模型在生成改写过程中将内部计算集中于该 CE 的语义空间。对每个 CE \(c\) 准备数百条文本 \(\mathcal{D}_c\)，用 ERI prompt 包装后送入 \(f_\theta\)，收集生成 token 在一组连续层 \(\Lambda\) 上的注意力输出（attention output），拼接为表示向量 \(\mathbf{r}_t^{(c)} \in \mathbb{R}^D\)。消融实验表明：(1) 注意力输出（TPR 95.5%）远优于 MLP 输出（82.3%）；(2) ERI 显著优于 naive prefilling；(3) 指定 CE 名称的 ERI 优于不指定名称的纯改写指令（RI）
- 设计动机：ERI 让模型"主动执行"目标 CE 而非被动包含它，产生更纯净的概念激活信号
布尔规则引擎与时间窗口：
- 功能：将 token 级 CE 检测聚合为对话级安全判定
- 核心思路：每条规则 = 布尔谓词 + 执行动作。谓词用 \(\wedge/\vee/\neg\) 组合多个 CE。例如钓鱼规则 \(\pi = c_8 \wedge (c_2 \vee c_6 \vee c_{20})\)，含义是"模型在创建内容的同时引导用户点击/提供信息/透露个人数据"。规则在时间窗口 \(W_t = \{t-N+1, \ldots, t\}\) 内评估：窗口内任意 token 上某 CE 被检测到即记为存在，然后对所有规则谓词求值。语法设计借鉴 Snort/Sigma 的人类可读格式，方便快速编写与社区共享。论文定义了 9 条规则覆盖 3 大领域 9 类误用场景，如浪漫诈骗规则 \(c_{11} \wedge (c_1 \vee c_2 \vee \ldots \vee c_{21}) \wedge (c_9 \vee c_{14})\) 精确描述"情感操控+任意用户指令+信任/伪装"的组合
- 设计动机：布尔组合使单个无害 CE 仅在特定语境下共现才触发告警，从根本上解决粗粒度分类器的高误报问题

损失函数 / 训练策略¶

CE 检测器 \(g\) 采用 3 层 GRU（256 单元）多标签 RNN，处理 5-token 片段。训练样本为 \((\mathbf{r}_t^{(c)}, \mathbf{e}_c)\)，\(\mathbf{e}_c\) 是 CE \(c\) 的 one-hot 向量。损失函数为 Binary Cross Entropy，优化器 Adam（lr=\(3 \times 10^{-4}\)），每个 CE 仅需 300 条样本（80:20 划分）。训练时每条样本标注单个 CE，但部署时分类器能成功泛化到多 CE 共现场景——实验中 54% 的恶意对话存在多个 CE 同时活跃的 token。推理开销仅需约 150MB GPU 显存，每 token 增加 0.21±0.01 ms（<1%）。

实验关键数据¶

主实验：GAVEL vs 8 种基线（Mistral-7B）¶

评估覆盖 3 大领域（网络犯罪、心理伤害、诈骗自动化）共 9 类误用场景，14,950 条多轮对话（每类 150 条恶意 + 500 条相近无害对话压测精度）。

方法	类型	平均 AUC	平均 b-ACC	平均 FPR	典型弱项
GAVEL	CE+规则	0.99	0.96	0.004	无明显弱项
Activation Classifier	激活分类	0.97	0.92	0.07	Phishing FPR=0.35
Llama Guard 4	内容审核	0.87	0.93	0.03	SQL Injection AUC=0.76
RepBending	微调	0.87	0.87	0.02	Delusional AUC=0.57
CircuitBreakers	微调	0.68	0.69	0.06	妄想/浪漫/电商 ≈0.50
JBShield	推理时	0.41	0.63	0.01	多数场景 AUC<0.50
Perspective API	审核	0.53	0.55	0.02	诈骗类全部失效
OpenAI Moderator	审核	0.69	—	0.00	诈骗类 AUC≈0.50

消融 / 跨域 / 鲁棒性分析¶

实验维度	对比配置	关键结果	说明
激励方法	ERI vs Naive Prefilling vs RI	ERI 全面优于两个变体	CE 名称上下文对激活质量至关重要
激活来源	注意力输出 vs MLP 输出	TPR 95.5% vs 82.3%	注意力输出包含更丰富的上下文依赖信息
跨语言	英/西/中（仅英文 CE 数据集）	税务诈骗 TPR: 92%/90%/96%	CE 捕获语言无关的抽象认知概念
跨模型	Mistral/LLaMA-8B/Qwen3-8B/Gemma-4B	同规则集保持高精度	CE 数据集纯文本，模型无关可复用
对抗攻击	Misdirection（无害聊天稀释）	GAVEL >85% vs GPT-4 judge 12-15%	激活监控不受表面文本"稀释"影响
自动化 CE	PKU-SafeRLHF/ReasoningShield/ToxiGen	TPR 0.94-0.97（零人工干预）	自动化工具生成 CE+规则直接可用
运行开销	附加 GAVEL 的推理延迟	+0.21±0.01 ms/token（<1%）	150MB GPU 显存，可实时部署

关键发现¶

组合性是核心优势：CircuitBreakers 在需要多语义元素共现才构成违规的场景（妄想、浪漫诈骗、电商诈骗）上 AUC ≈ 0.50，本质上与随机猜测无异。GAVEL 通过布尔组合 CE 精确定义这些复合违规行为，全 9 类 AUC > 0.98
FPR 降低 17 倍：同类 Activation Classifier 在 Phishing 上 FPR=0.35（任何涉及内容创建+用户交互的对话都触发），而 GAVEL 通过精确的 CE 组合将 FPR 降至 0.00，验证了细粒度原语的精度优势
跨语言零迁移：CE 数据集仅用英文构建，但在西班牙语和中文对话上检测性能几乎不变。这表明 CE 捕获的是激活空间中语言无关的抽象概念，而非表面词汇模式
对抗鲁棒性碾压文本审核：Misdirection 攻击下 GPT-4 judge 检测率暴跌至 12-15%，因为有害内容被大量无害聊天稀释。GAVEL 维持 >85% 召回率，因为它监控的是模型"认知状态"而非"输出文本"
Deceptive Marketing 场景：LLM 将自我推广编织进医疗建议中，GPT-4 仅检测出 24%，GAVEL 通过检测 Build Trust + Healthcare 话题共现达到 73%

亮点与洞察¶

网安→AI安全的范式迁移：CE 如同共享的攻击指标（IoC），规则如同 Sigma 检测模板。模型所有者只需选择和组合规则而非训练检测器。这不是简单类比——GAVEL 提供了完整的技术栈（CE 词汇表 + 激励数据集 + RNN 检测器 + 规则引擎 + 自动化工具）让这个理念可落地
"单 CE 无害、组合才违规"的哲学巧妙：这种正交设计在降低误报的同时，使规则数量随 CE 数量呈指数级增长，理论上 23 个 CE 可表达 \(2^{23}\) 种不同组合。实际中只需从中挑选有意义的组合编写规则
ERI 策略可广泛迁移：通过"以目标概念的方式改写文本"来激发纯净激活信号的思路，可应用于 probing、concept bottleneck model、可解释性特征提取等多种场景

局限与展望¶

CE 粒度选择依赖人工经验：虽有 LLM 辅助的自动化工具，但 CE 的语义边界和粒度仍需领域专家判断。当前 23 个 CE 覆盖有限，通用安全需要社区长期积累
布尔规则缺乏时序表达力：纯布尔逻辑无法描述"先建立信任→后提出要求"这类有先后依赖的行为模式。作者承认需要更丰富的时序逻辑（如 LTL），这是直接的扩展方向
模型规模受限：仅在 4-8B 参数模型上验证，70B+ 或闭源模型的表现未知。更大模型的激活空间维度更高，层选择策略可能需要调整
评估数据为合成对话：14,950 条对话由 GPT-4.1 生成、GPT-5 验证，与真实世界攻击的分布多样性存在差距

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个规则化激活安全框架，CE+布尔规则的解耦范式是原创贡献
实验充分度: ⭐⭐⭐⭐ 9 类误用 × 14950 对话 × 8 基线 × 跨模型/跨语言/对抗评估，但仅限小模型且数据为合成
写作质量: ⭐⭐⭐⭐⭐ 从网安类比出发的动机链条极为清晰，框架呈现层次分明
价值: ⭐⭐⭐⭐⭐ 可落地的 AI 安全治理框架，CE+规则解耦对工业部署有直接实用价值