跳转至

GAVEL: Towards Rule-Based Safety through Activation Monitoring

会议: ICLR 2026
arXiv: 2601.19768
代码: 开源(待发布)
领域: AI安全 / 激活监控
关键词: activation monitoring, cognitive elements, rule-based safety, interpretable AI governance, LLM safety

一句话总结

提出 GAVEL 框架,将 LLM 安全从"粗粒度误用数据集训练分类器"范式转向"可组合认知元素 (CE) + 布尔规则"范式:定义可解释的激活级原语(如"发出威胁"、"处理支付"),组合为精确的策略规则,实现高精度、可定制、可审计的实时安全监控。

研究背景与动机

  1. 领域现状:基于激活的 LLM 安全监控正在兴起——通过分析模型内部表示来检测有害行为,比表面文本分析更难绕过。主流方法是在误用数据集上训练线性探针/分类器。
  2. 现有痛点:(a) 精度差——"网络犯罪"等粗粒度类别导致大量误报;(b) 灵活性差——新政策需构建新数据集并重新训练;(c) 不可解释——检测器触发时不知道哪些因素导致。
  3. 核心矛盾:安全需要精确+可定制+可解释,但当前激活安全方法是粗粒度+固定+黑盒。
  4. 本文要解决什么? 如何将激活安全从"训练分类器"升级为"编写规则"?
  5. 切入角度:借鉴网络安全的规则共享生态(Snort/YARA/Sigma),AI 安全也需要可组合、可共享、可审计的规则体系。
  6. 核心idea一句话:将 LLM 行为分解为独立的认知元素(CE),用布尔逻辑组合规则精确定义违规状态。

方法详解

整体框架

(1) 定义 CE 词汇表(23 个元素)→ (2) 为每个 CE 收集激励数据集并提取激活 → (3) 训练多标签分类器检测 CE → (4) 推理时用布尔规则检测违规。

关键设计

  1. 认知元素 (Cognitive Elements)
  2. 做什么:可解释的激活级行为原语,分三类:Directive to User、LLM Behavior、Topic。
  3. 共 23 个 CE,如"发出威胁"、"伪装人类"、"处理支付"、"情感操控"等。
  4. 核心优势:CE 正交且可组合——"处理支付"本身无害,但"处理支付 ∧ 伪装人类 ∧ 建立信任"就是诈骗。

  5. ERI 数据集构建

  6. 做什么:让 CE 激活更纯净。
  7. 核心思路:指示模型"以 [CE名] 的方式改写此文本",让内部计算集中于目标 CE。
  8. 效果:ERI 方法的 CE 检测精度显著高于 naive prefilling。

  9. 规则系统

  10. 用布尔逻辑组合 CE 定义违规,语法类似 Snort/YARA。
  11. 钓鱼规则:\(c_8 \wedge (c_2 \lor c_6 \lor c_{20})\)
  12. 浪漫诈骗:\(c_{11} \wedge (c_1 \lor ... \lor c_{21}) \wedge (c_9 \lor c_{14})\)

  13. 时间窗口监控:CE 在对话中出现/消失,规则在时间窗口内评估。

实验关键数据

主实验:GAVEL vs 基线(Mistral-7B, 9 类误用)

类别 GAVEL AUC GAVEL FPR CircuitBreakers AUC RepBending AUC
Phishing 0.99 0.00 0.89 0.99
Delusional 0.98 0.01 0.49 0.57
Romance Scam 0.98 0.02 0.50 0.91
E-commerce Scam 0.99 0.01 0.50 0.97

关键发现

  • GAVEL 在 8/9 类达到 AUC > 0.98,平均 FPR 仅 0.01。
  • CircuitBreakers 在复杂场景(Delusional/Romance/E-commerce)上 AUC ≈ 0.50,说明粗粒度方法无法识别需上下文组合的误用。
  • 内容审核 API(Llama Guard/Google Perspective)在诈骗类别上几乎完全失效。
  • 实时运行开销 <3ms/token。

亮点与洞察

  • 网安 → AI 安全的范式迁移:共享 CE 如同共享 IoC,规则如同 Sigma 规则,可社区协作迭代。
  • 组合性 = 精度:单个 CE 无害,特定组合才构成违规,避免了粗粒度分类器的语义混淆。
  • 可解释 + 可审计:规则触发时可看到哪些 CE 在哪些 token 上激活,对合规审计有直接价值。

局限性 / 可改进方向

  • CE 词汇表需人工或半自动设计,质量依赖专家。
  • 布尔规则无法自然捕捉"逐渐升级"等动态行为,需更复杂的时序逻辑。
  • 仅在 Mistral-7B 和 Llama-3.1-8B 上验证,跨模型迁移性待验证。

相关工作与启发

  • vs CAST (Lee et al., 2024):CAST 仅对粗粒度类别做 steering,GAVEL 在 CE 级别提供更精细的可编程安全。
  • vs AlphaSteer:AlphaSteer 修改激活实现安全,GAVEL 监控激活实现安全。两者可组合——GAVEL 检测 + AlphaSteer 干预。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "规则化激活安全"是全新范式,CE 概念简洁有力
  • 实验充分度: ⭐⭐⭐⭐ 9 类误用 × 14950 对话 × 多基线,但仅 2 个模型
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰(网安类比),框架呈现完整
  • 价值: ⭐⭐⭐⭐⭐ 提供了 AI 安全治理的实用框架,对工业部署有直接价值