跳转至

A Granular Study of Safety Pretraining under Model Abliteration

会议: NeurIPS 2025
arXiv: 2510.02768
代码: GitHub
领域: AI Safety / 模型压缩
关键词: LLM安全, abliteration, 安全预训练, 激活空间编辑, 拒绝行为

一句话总结

本文系统地研究了 model abliteration(一种推理时激活空间编辑攻击)对不同数据驱动安全预训练阶段的影响,发现仅依赖 refusal 训练的安全机制极易被攻破,而 组合多种安全信号(safe-only 过滤 + 改写 + metatag + refusal)可使安全行为分散到更广泛的表征空间、从而更难被单一方向投影移除。

研究背景与动机

  1. 领域现状:当前 LLM 安全对齐主要依赖 RLHF、DPO 和 constitutional AI 等后训练方法来教模型拒绝有害请求。开源模型发布后用户可自行修改权重和推理代码。
  2. 现有痛点:已有研究表明,(a) 良性微调可能意外删除安全行为;(b) 对抗 prompting 可以绕过防御;(c) 拒绝行为集中在激活空间中的低维方向上,容易被定向移除。
  3. 核心矛盾:Model abliteration 是一种极其轻量的攻击——只需在推理时做一个线性投影,无需梯度、无需训练数据,就能关闭模型的拒绝能力。这对开源模型社区构成严重安全威胁。
  4. 本文要解决什么? 哪些数据驱动的安全训练策略能在 abliteration 攻击下幸存?具体哪些"安全成分"能让安全信号分布得更广、更难被移除?
  5. 切入角度:利用 Safety Pretraining 项目发布的 SmolLM2-1.7B 的 7 个粒度化检查点(每个检查点隔离一种安全数据策略),构建"原始 vs 被攻击"的配对对比实验。
  6. 核心 idea 一句话:通过检查点级分析证明,组合式数据安全策略(过滤+改写+标签+拒绝)比单一拒绝训练在激活编辑攻击下鲁棒得多。

方法详解

整体框架

输入:一组 LLM 检查点(10 个基础模型)和一组测试 prompt(50 有害 + 50 无害)。对每个模型构建 abliterated 版本,然后用多种 judge 评估拒绝率变化。输出:各安全策略的鲁棒性评估。

关键设计

  1. Model Abliteration 攻击:
  2. 做什么:移除模型激活空间中的"拒绝方向",使模型不再拒绝有害请求
  3. 核心思路:收集有害/无害 prompt 在指定层 \(\ell\) 的残差流激活 \(h^{(\ell)}(x)\),类内均值中心化后做 PCA,取第一主成分作为拒绝方向 \(v^{(\ell)}\)。推理时投影移除:\(\tilde{h}^{(\ell)}(x) = h^{(\ell)}(x) - \alpha \langle h^{(\ell)}(x), v^{(\ell)} \rangle v^{(\ell)}\)
  4. 设计动机:因为拒绝行为集中在低维子空间,移除这个方向就能瓦解拒绝机制,零梯度、零额外数据
  5. 与之前方法的区别:比微调攻击成本更低,甚至不需要训练数据

  6. 粒度化安全预训练检查点:

  7. 做什么:基于 SmolLM2-1.7B,隔离 6 种数据策略的影响
  8. 具体检查点:(1) Raw mixture 基础混合; (2) Score-0 safe-only 过滤(用安全分类器只保留安全数据); (3) Score-0 + Rephrase(将不安全片段改写为教育叙事); (4) + Metatags(添加有害/安全标签实现可控性); (5) + Refusals(加入显式拒绝对话); (6) Safety Oracle(全组合)
  9. 外部基线:GLM-4, Qwen-3, Llama-3.3, SmolLM2 标准版
  10. 总计 10×2=20 个系统(原始 + abliterated)

  11. 多 Judge 评估协议:

  12. 做什么:用多种评委评估拒绝/非拒绝二分类
  13. 评委列表:ChatGPT-5(主评委)、GLM-4、Qwen-3、SmolLM2、GPT-oss、regex 基线、两位人类标注员
  14. 人类验证:10 prompt × 20 系统 = 200 标注 per 人,两人一致率 195/200(Pearson 0.983)
  15. ChatGPT-5 与人类相关性最高(≈0.98),故作为主评委

  16. 自我评判探针:

  17. 做什么:让模型自己判断"我刚刚的回复是否是拒绝"
  18. 核心发现:模型无法可靠检测自身的拒绝状态,尤其被 abliterate 后更差

评估协议

  • 100 prompts(50 有害 + 50 无害),涵盖不同有害类别
  • Study 1: 大规模拒绝评估(ChatGPT-5 作主评委)
  • Study 2: 人类标注子集验证评委可靠性
  • Study 3: 自我判断一致性

实验关键数据

主实验

模型 攻击前有害拒绝率(%) 攻击后有害拒绝率(%) 拒绝下降
Safety Oracle (全组合) ~98% ~90% 最小
Score-0 + Rephrase + Metatags ~96% ~88%
Score-0 + Rephrase + Refusals ~94% ~82%
Score-0 + Rephrase 最高(~100%) 大幅下降
SmolLM2 标准 ~70% 急剧下降
Llama-3.3 大幅下降 最大
Qwen-3 无变化

评委一致性

评委 与人类 Pearson 相关
ChatGPT-5 0.98
GLM-4 ~0.79
regex ~0.75
小型开源模型 弱/不一致

关键发现

  • 拒绝训练最脆弱:仅靠 refusal 对话训练的安全性最容易被 abliteration 移除,因为拒绝信号集中在单一方向
  • 组合式安全最鲁棒:Safe-only 过滤 + 改写 + Metatag + Refusal 的完整组合使安全信号分散到更广的表征空间
  • Metatag 贡献关键:有 metatag 的模型比无 metatag 的模型在攻击后保留更多拒绝能力,暗示 metatag 将安全信号编码到更多维度
  • Qwen-3 异常鲁棒:在本实验设置中 abliteration 对 Qwen-3 无效,与先前 Qwen2.5 脆弱的结论不同
  • 无害 prompt 的拒绝率在攻击前后都很低,说明 abliteration 主要影响有害输入的处理

亮点与洞察

  • 粒度化安全归因:利用隔离数据策略的检查点序列做受控实验,这种实验设计非常巧妙,可以迁移到任何需要归因"训练数据中哪个成分起作用"的场景
  • 推理时攻击纳入安全评估:提出将 abliteration 作为标准安全红队测试的一部分,这是一个重要的方法论贡献
  • 自我检测的失败:模型不能可靠判断自己是否在拒绝,尤其 abliterated 后,这说明基于自省的安全监控不可靠
  • 评委选择的影响:不同 LLM judge 的评估结果差异很大,小模型 judge 甚至可能产生反相关,在安全评估中 judge 选择本身就是关键变量

局限性 / 可改进方向

  • 模型规模单一:主要在 SmolLM2-1.7B 上实验,对更大规模模型(7B, 70B+)的结论迁移性未验证
  • 攻击方式单一:只测试了一种 abliteration 方法(PCA first-PC 投影),还有多向量移除、非线性编辑等变种
  • Prompt 集较小:100 prompts 可能不够覆盖所有有害类别的细粒度差异
  • 静态设置:实际攻击场景中,攻击者可能迭代调参(\(\alpha\) 值、层选择),本文用固定设置
  • 改进思路:(1) 在不同规模模型上验证;(2) 测试多方向同时移除的更强攻击;(3) 设计让安全信号更均匀分散的新训练方法

相关工作与启发

  • vs Arditi et al. (Refusal in LLMs):他们发现拒绝方向的存在,本文进一步研究移除后不同安全策略的鲁棒性差异
  • vs Safety Pretraining (Goyal et al.):本文利用了他们的检查点,但聚焦于 abliteration 鲁棒性这一新维度
  • vs Jailbreak 研究:jailbreak 是通过 prompt 绕过,abliteration 是通过激活编辑绕过,威胁模型不同但可互补

评分

  • 新颖性: ⭐⭐⭐⭐ 将粒度化检查点实验设计与推理时攻击评估结合,实验设计有创意
  • 实验充分度: ⭐⭐⭐ 多 judge/多模型/人类验证做得好,但 prompt 集偏小、模型规模单一
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,实验协议描述详细,图表信息量大
  • 价值: ⭐⭐⭐⭐ 为开源模型安全提供了实用指导——组合式数据安全策略优于单一策略