Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons¶
会议: NeurIPS 2025
arXiv: 2406.14144
代码: THU-KEG/SafetyNeuron
领域: llm_alignment
关键词: safety alignment, mechanistic interpretability, safety neurons, activation patching, alignment tax
一句话总结¶
通过机制可解释性视角发现 LLM 中约 5% 的稀疏"安全神经元",仅修补(patching)这些神经元的激活即可恢复 90% 以上的安全性能,并从神经元重叠角度解释了 alignment tax 现象。
研究背景与动机¶
大语言模型虽经安全对齐训练显著提升了安全性,但仍然容易受到恶意攻击。理解安全对齐的内在机制对设计更鲁棒的对齐算法至关重要。现有机制可解释性方法(如对 attention head 的归因)主要针对需要提示和少量 token 输出的任务,无法直接应用于需要开放式生成的安全对齐场景。
本文核心问题是:安全对齐在 LLM 内部到底改变了什么? 作者选择从最基本的 MLP 神经元层面切入,试图找到负责安全行为的"安全神经元",并验证其因果效应。
此外,安全对齐领域存在著名的 alignment tax 问题:提升安全性会损害模型的有用性,反之亦然。作者希望从神经元视角对此给出机制性解释。
方法详解¶
整体框架¶
提出两阶段框架:先通过关联性(association)缩小候选范围,再验证因果性(causality)。
核心思路:关联是因果的必要条件。先找到与安全行为关联的神经元,再用因果分析验证。
关键设计一:推理时激活对比(Inference-time Activation Contrasting)¶
给定两个模型 \(\mathcal{M}_1\)(SFT 模型)和 \(\mathcal{M}_2\)(DPO 安全对齐模型),对同一输入分别收集 MLP 中间层神经元的激活值,计算变化分数(change score):
其中 \(a_i^{(l)}\) 是第 \(l\) 层第 \(i\) 个神经元的激活值。按变化分数降序排列,取 top 的神经元作为安全神经元候选。
为什么选择 MLP 中间层神经元? 因为 MLP 中间层(激活函数后、down projection 前)的神经元已被证明编码了多种可解释特征,且 down projection 矩阵的每行可解释为该神经元的"值向量"。
关键设计二:动态激活修补(Dynamic Activation Patching)¶
传统 activation patching 只能处理单步输出。本文提出动态激活修补适用于开放式生成场景:
- 对当前提示 \(w\),运行 \(\mathcal{M}_2\) 缓存目标神经元激活
- 运行 \(\mathcal{M}_1\),将目标神经元激活替换为缓存值,其余神经元不变
- 获取下一 token 预测,追加到提示
- 重复直到生成完成
因果效应定义为:
\(\mathcal{C} \approx 1\) 表示这些神经元完全解释了安全能力;\(\mathcal{C} \approx 0\) 表示因果效应可忽略。
训练策略¶
- 对齐训练采用 (IA)³ 作为 PEFT 方法,仅应用于 MLP 层
- (IA)³ 通过乘以缩放因子修改激活,不改变底层参数,从而保留了 MLP 神经元的功能性
- SFT 阶段在 ShareGPT 上训练,安全对齐使用 DPO 在 HH-RLHF-Harmless 上训练
实验关键数据¶
主实验:安全神经元的稀疏性与因果效应¶
在 Llama2-7B、Mistral-7B、Gemma-7B、Qwen2.5-3B 四个模型上验证:
| 模型 | 版本 | BT(↑) | RT(↑) | HB(↑) | JL(↑) | ΔGen |
|---|---|---|---|---|---|---|
| Llama2 | Base→Ours | +56 | +65 | +63 | +78 | -0.01 |
| Llama2 | SFT→Ours | +101 | +101 | +76 | +73 | +0.01 |
| Mistral | Base→Ours | +71 | +63 | +134 | +103 | -0.04 |
| Mistral | SFT→Ours | +90 | +80 | +74 | +75 | +0.01 |
| Gemma | SFT→Ours | +96 | +84 | +79 | +89 | -0.02 |
| Qwen2.5 | SFT→Ours | +83 | +81 | +68 | +83 | +0.01 |
- 仅修补约 5% 的神经元即可恢复 >90% 的安全性能
- 两个基线 Pruning 和 SN-Tune 的因果效应极低(通常在 -10 到 +30 范围)
- 通用能力变化 ΔGen 极小(|ΔGen| ≤ 0.05),说明安全增强基本不影响生成质量
消融实验:随机神经元 vs 安全神经元¶
- 随机采样同等数量神经元进行 patching,因果效应显著低于安全神经元
- t-test p 值范围:\(1.15 \times 10^{-6}\) 到 \(1.67 \times 10^{-18}\),差异高度显著
Alignment Tax 机制分析¶
| Patch 方向 | Llama2 安全↓ | Llama2 有用↑ | Mistral 安全↓ | Mistral 有用↑ |
|---|---|---|---|---|
| Helpfulness→Safety | 7.3 | 7.97 | 6.6 | 8.1 |
| Safety→Helpfulness | 10.1 | 2.3 | 10.7 | 1.0 |
安全和有用性的偏好神经元 Spearman 相关系数 >0.95,而与推理等其他能力的相关性低得多。同一组神经元需要不同激活模式来实现安全和有用性。
关键发现¶
- 安全神经元在不同随机种子训练下重叠率 >0.95,Spearman 相关系数 >0.95
- 基于安全神经元激活的分类器可在生成前预测有害输出,平均准确率 76.2%
- 安全神经元的值向量投影到词表空间后,关联的 top token 并非安全相关内容(如食物、连词、括号),暗示安全机制比简单避免毒性 token 更复杂
亮点与洞察¶
- 方法论创新:提出从关联到因果的两阶段框架,特别是动态激活修补解决了开放式生成中的因果验证难题,这是对传统 activation patching 的重要扩展
- 稀疏性发现:仅 5% 的神经元就承载了 90%+ 的安全机制,这一发现既有理论价值(安全对齐是稀疏的),也有实践价值(可用于高效安全增强)
- Alignment Tax 解释:首次从神经元层面给出机制性解释——安全和有用性共享同一组高度重叠的神经元,但需要不同的激活模式,这类似"资源竞争"
- 实际应用:安全防护(safeguard)应用展示了在生成前预测有害输出的可能性,且分类器开销 <0.001 秒
局限性 / 可改进方向¶
- 对齐方式局限:仅验证了 (IA)³ + DPO 的设置,全参数微调的安全对齐可能打破神经元功能保持假设
- 模型规模:实验集中在 3B~7B 模型,更大规模模型的安全神经元分布可能不同
- 因果机制深度不足:发现安全神经元并非编码安全相关 token,但未能揭示其具体工作机制
- 防护准确率有限:76.2% 的检测准确率在实际部署中仍不够高
- 未探索 Attention Head 交互:MLP 神经元约占 2/3 参数,但与 attention head 的协同作用未深入分析
相关工作与启发¶
- 与 Refusal Direction 的关系:Arditi et al. (2024) 发现拒绝行为由单一方向调控,本文从神经元粒度提供了更细致的视角
- 与 Lee et al. (2024) 的区别:后者在 GPT-2 上找到关联毒性 token 的"毒性神经元",本文发现安全神经元的机制更复杂,关联 token 非安全相关
- 与消融方法的对比:传统方法(Pruning, SN-Tune)采用消融策略,可能受"九头蛇效应"(Hydra effect)影响——消除某些组件会触发其他组件的补偿行为。本文采用增强(patching)而非消融,更直接地验证因果效应
- 启发:该框架可推广到其他高层能力(如指令遵循、多语言能力)的机制研究
评分¶
- 新颖性: ⭐⭐⭐⭐ — 推理时激活对比 + 动态激活修补的两阶段框架是全新提出的,对开放式生成场景的因果分析有方法论贡献
- 实验充分度: ⭐⭐⭐⭐⭐ — 4 个模型 × 4 个红队基准 × 多个通用基准,含基线对比、消融、稳定性验证、alignment tax 分析、应用展示
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,逻辑连贯,公式与直觉解释平衡良好
- 价值: ⭐⭐⭐⭐ — 对理解安全对齐机制有重要贡献,alignment tax 解释具有启发性,防护应用展示了实践前景