GAVEL: Towards Rule-Based Safety through Activation Monitoring¶

会议: ICLR 2026
arXiv: 2601.19768
代码: 开源（待发布）
领域: AI安全 / 激活监控
关键词: activation monitoring, cognitive elements, rule-based safety, interpretable AI governance, LLM safety

一句话总结¶

提出 GAVEL 框架，将 LLM 安全从"粗粒度误用数据集训练分类器"范式转向"可组合认知元素 (CE) + 布尔规则"范式：定义可解释的激活级原语（如"发出威胁"、"处理支付"），组合为精确的策略规则，实现高精度、可定制、可审计的实时安全监控。

研究背景与动机¶

领域现状：基于激活的 LLM 安全监控正在兴起——通过分析模型内部表示来检测有害行为，比表面文本分析更难绕过。主流方法是在误用数据集上训练线性探针/分类器。
现有痛点：(a) 精度差——"网络犯罪"等粗粒度类别导致大量误报；(b) 灵活性差——新政策需构建新数据集并重新训练；(c) 不可解释——检测器触发时不知道哪些因素导致。
核心矛盾：安全需要精确+可定制+可解释，但当前激活安全方法是粗粒度+固定+黑盒。
本文要解决什么？ 如何将激活安全从"训练分类器"升级为"编写规则"？
切入角度：借鉴网络安全的规则共享生态（Snort/YARA/Sigma），AI 安全也需要可组合、可共享、可审计的规则体系。
核心idea一句话：将 LLM 行为分解为独立的认知元素（CE），用布尔逻辑组合规则精确定义违规状态。

方法详解¶

整体框架¶

(1) 定义 CE 词汇表（23 个元素）→ (2) 为每个 CE 收集激励数据集并提取激活 → (3) 训练多标签分类器检测 CE → (4) 推理时用布尔规则检测违规。

关键设计¶

认知元素 (Cognitive Elements)：
做什么：可解释的激活级行为原语，分三类：Directive to User、LLM Behavior、Topic。
共 23 个 CE，如"发出威胁"、"伪装人类"、"处理支付"、"情感操控"等。
核心优势：CE 正交且可组合——"处理支付"本身无害，但"处理支付 ∧ 伪装人类 ∧ 建立信任"就是诈骗。
ERI 数据集构建：
做什么：让 CE 激活更纯净。
核心思路：指示模型"以 [CE名] 的方式改写此文本"，让内部计算集中于目标 CE。
效果：ERI 方法的 CE 检测精度显著高于 naive prefilling。
规则系统：
用布尔逻辑组合 CE 定义违规，语法类似 Snort/YARA。
钓鱼规则：\(c_8 \wedge (c_2 \lor c_6 \lor c_{20})\)
浪漫诈骗：\(c_{11} \wedge (c_1 \lor ... \lor c_{21}) \wedge (c_9 \lor c_{14})\)
时间窗口监控：CE 在对话中出现/消失，规则在时间窗口内评估。

实验关键数据¶

主实验：GAVEL vs 基线（Mistral-7B, 9 类误用）¶

类别	GAVEL AUC	GAVEL FPR	CircuitBreakers AUC	RepBending AUC
Phishing	0.99	0.00	0.89	0.99
Delusional	0.98	0.01	0.49	0.57
Romance Scam	0.98	0.02	0.50	0.91
E-commerce Scam	0.99	0.01	0.50	0.97

关键发现¶

GAVEL 在 8/9 类达到 AUC > 0.98，平均 FPR 仅 0.01。
CircuitBreakers 在复杂场景（Delusional/Romance/E-commerce）上 AUC ≈ 0.50，说明粗粒度方法无法识别需上下文组合的误用。
内容审核 API（Llama Guard/Google Perspective）在诈骗类别上几乎完全失效。
实时运行开销 <3ms/token。

亮点与洞察¶

网安 → AI 安全的范式迁移：共享 CE 如同共享 IoC，规则如同 Sigma 规则，可社区协作迭代。
组合性 = 精度：单个 CE 无害，特定组合才构成违规，避免了粗粒度分类器的语义混淆。
可解释 + 可审计：规则触发时可看到哪些 CE 在哪些 token 上激活，对合规审计有直接价值。

局限性 / 可改进方向¶

CE 词汇表需人工或半自动设计，质量依赖专家。
布尔规则无法自然捕捉"逐渐升级"等动态行为，需更复杂的时序逻辑。
仅在 Mistral-7B 和 Llama-3.1-8B 上验证，跨模型迁移性待验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "规则化激活安全"是全新范式，CE 概念简洁有力
实验充分度: ⭐⭐⭐⭐ 9 类误用 × 14950 对话 × 多基线，但仅 2 个模型
写作质量: ⭐⭐⭐⭐⭐ 动机清晰（网安类比），框架呈现完整
价值: ⭐⭐⭐⭐⭐ 提供了 AI 安全治理的实用框架，对工业部署有直接价值