GAVEL: Towards Rule-Based Safety through Activation Monitoring¶
会议: ICLR 2026
arXiv: 2601.19768
代码: 开源(待发布)
领域: AI安全 / 激活监控
关键词: activation monitoring, cognitive elements, rule-based safety, interpretable AI governance, LLM safety
一句话总结¶
提出 GAVEL 框架,将 LLM 安全从"粗粒度误用数据集训练分类器"范式转向"可组合认知元素 (CE) + 布尔规则"范式:定义可解释的激活级原语(如"发出威胁"、"处理支付"),组合为精确的策略规则,实现高精度、可定制、可审计的实时安全监控。
研究背景与动机¶
- 领域现状:基于激活的 LLM 安全监控正在兴起——通过分析模型内部表示来检测有害行为,比表面文本分析更难绕过。主流方法是在误用数据集上训练线性探针/分类器。
- 现有痛点:(a) 精度差——"网络犯罪"等粗粒度类别导致大量误报;(b) 灵活性差——新政策需构建新数据集并重新训练;(c) 不可解释——检测器触发时不知道哪些因素导致。
- 核心矛盾:安全需要精确+可定制+可解释,但当前激活安全方法是粗粒度+固定+黑盒。
- 本文要解决什么? 如何将激活安全从"训练分类器"升级为"编写规则"?
- 切入角度:借鉴网络安全的规则共享生态(Snort/YARA/Sigma),AI 安全也需要可组合、可共享、可审计的规则体系。
- 核心idea一句话:将 LLM 行为分解为独立的认知元素(CE),用布尔逻辑组合规则精确定义违规状态。
方法详解¶
整体框架¶
(1) 定义 CE 词汇表(23 个元素)→ (2) 为每个 CE 收集激励数据集并提取激活 → (3) 训练多标签分类器检测 CE → (4) 推理时用布尔规则检测违规。
关键设计¶
- 认知元素 (Cognitive Elements):
- 做什么:可解释的激活级行为原语,分三类:Directive to User、LLM Behavior、Topic。
- 共 23 个 CE,如"发出威胁"、"伪装人类"、"处理支付"、"情感操控"等。
-
核心优势:CE 正交且可组合——"处理支付"本身无害,但"处理支付 ∧ 伪装人类 ∧ 建立信任"就是诈骗。
-
ERI 数据集构建:
- 做什么:让 CE 激活更纯净。
- 核心思路:指示模型"以 [CE名] 的方式改写此文本",让内部计算集中于目标 CE。
-
效果:ERI 方法的 CE 检测精度显著高于 naive prefilling。
-
规则系统:
- 用布尔逻辑组合 CE 定义违规,语法类似 Snort/YARA。
- 钓鱼规则:\(c_8 \wedge (c_2 \lor c_6 \lor c_{20})\)
-
浪漫诈骗:\(c_{11} \wedge (c_1 \lor ... \lor c_{21}) \wedge (c_9 \lor c_{14})\)
-
时间窗口监控:CE 在对话中出现/消失,规则在时间窗口内评估。
实验关键数据¶
主实验:GAVEL vs 基线(Mistral-7B, 9 类误用)¶
| 类别 | GAVEL AUC | GAVEL FPR | CircuitBreakers AUC | RepBending AUC |
|---|---|---|---|---|
| Phishing | 0.99 | 0.00 | 0.89 | 0.99 |
| Delusional | 0.98 | 0.01 | 0.49 | 0.57 |
| Romance Scam | 0.98 | 0.02 | 0.50 | 0.91 |
| E-commerce Scam | 0.99 | 0.01 | 0.50 | 0.97 |
关键发现¶
- GAVEL 在 8/9 类达到 AUC > 0.98,平均 FPR 仅 0.01。
- CircuitBreakers 在复杂场景(Delusional/Romance/E-commerce)上 AUC ≈ 0.50,说明粗粒度方法无法识别需上下文组合的误用。
- 内容审核 API(Llama Guard/Google Perspective)在诈骗类别上几乎完全失效。
- 实时运行开销 <3ms/token。
亮点与洞察¶
- 网安 → AI 安全的范式迁移:共享 CE 如同共享 IoC,规则如同 Sigma 规则,可社区协作迭代。
- 组合性 = 精度:单个 CE 无害,特定组合才构成违规,避免了粗粒度分类器的语义混淆。
- 可解释 + 可审计:规则触发时可看到哪些 CE 在哪些 token 上激活,对合规审计有直接价值。
局限性 / 可改进方向¶
- CE 词汇表需人工或半自动设计,质量依赖专家。
- 布尔规则无法自然捕捉"逐渐升级"等动态行为,需更复杂的时序逻辑。
- 仅在 Mistral-7B 和 Llama-3.1-8B 上验证,跨模型迁移性待验证。
相关工作与启发¶
- vs CAST (Lee et al., 2024):CAST 仅对粗粒度类别做 steering,GAVEL 在 CE 级别提供更精细的可编程安全。
- vs AlphaSteer:AlphaSteer 修改激活实现安全,GAVEL 监控激活实现安全。两者可组合——GAVEL 检测 + AlphaSteer 干预。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "规则化激活安全"是全新范式,CE 概念简洁有力
- 实验充分度: ⭐⭐⭐⭐ 9 类误用 × 14950 对话 × 多基线,但仅 2 个模型
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰(网安类比),框架呈现完整
- 价值: ⭐⭐⭐⭐⭐ 提供了 AI 安全治理的实用框架,对工业部署有直接价值