Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation¶
会议: NeurIPS 2025
arXiv: 2509.16660
代码: GitHub
领域: 机器人
关键词: 毒性缓解, 特征值分解, 可解释性, 语言模型安全, 神经元专家
一句话总结¶
提出EigenShift方法,通过对LLM最终输出层进行SVD分解,识别与毒性生成相关的特征方向(eigen-choices),并通过选择性衰减对应奇异值来实现毒性抑制——在LLaMA-2上降低58%毒性的同时仅增加3.62的困惑度,兼顾安全与流畅性。
研究背景与动机¶
大语言模型在生成流畅文本方面取得了巨大成功,但其倾向于生成有毒内容的问题仍然是AI安全的核心挑战。现有毒性缓解方法主要操作单个神经元激活(所谓的"概念专家"),但存在严重缺陷:
神经元激活不稳定:单个神经元的AUROC多在0.50-0.55之间,几乎等同随机分类器。当AUROC阈值从0.50提高到0.55时,BERT中"专家"神经元比例从11.13%骤降至3.68%
检测vs生成的混淆:现有方法将"毒性检测专家"和"毒性生成专家"混为一谈。抑制检测专家会导致模型丧失识别毒性的能力,引发灾难性遗忘
激进干预破坏流畅性:Det-0方法虽将毒性降至0%,但困惑度从6.23飙升至43517,TPH得分仅0.03%
论文围绕三个研究问题展开: - RQ1:个体神经元是否是可靠的毒性指示器? - RQ2:层级或结构性表征能否更鲁棒地捕获毒性? - RQ3:能否发现超越层和神经元的可解释性组件?
方法详解¶
整体框架¶
EigenShift分为三个阶段:(1) 从基础模型采样生成,用分类器标注毒性token;(2) 对输出投影矩阵做SVD分解,识别毒性相关的eigen-choices;(3) 选择性衰减对应奇异值,重构输出层权重。
关键设计¶
- 从神经元到层级专家
对于每个Transformer层,提取隐藏表示 \(H_l \in \mathbb{R}^{N \times d}\),使用k-means聚类(k=2),然后用AUROC评估聚类结果与毒性标签的一致性。实验表明层级AUROC从54.66%提升至63.32%(Jigsaw数据集),改善15.84个百分点。
设计动机:单个神经元执行线性变换,输出标量值 \(o=wx+b\),缺乏编码丰富语义信息的维度。层级嵌入(dim >> 1)能捕获复杂语义关系。此外dropout等随机训练使得没有单个神经元能保证一致地编码特定语义。
- Eigen-Choices:语义决策轴
对最终输出层权重矩阵 \(W \in \mathbb{R}^{V \times d}\) 进行SVD分解:
$\(W = U \Sigma V^T, \quad B=U, \quad A=\Sigma V^T\)$
其中 \(V^T \in \mathbb{R}^{d \times d}\) 定义隐藏状态的语义子空间正交基,\(\Sigma\) 的对角元素加权每个语义方向,\(U \in \mathbb{R}^{V \times d}\) 将语义方向映射到词表token。每个 \(v_i\)(\(V\) 的列向量)对应一个"eigen-choice"——模型在文本生成中做决策的基本语义轴。
对于隐藏状态 \(h\),沿第 \(i\) 个eigen-choice的激活为 \(a_i = v_i^T h\)。假设某些特征向量 \(v_{toxic}\) 与毒性生成系统性关联。
- 毒性方向检测与EigenShift干预
计算每个特征向量在毒性样本和非毒性样本上的方向影响:
$\(\Delta_i = \mathbb{E}_{h_\Phi \sim \text{Toxic}}[v_i^T h_\Phi] - \mathbb{E}_{h_\Psi \sim \text{Non-Toxic}}[v_i^T h_\Psi]\)$
按 \(\Delta_i\) 排序,选取top-k(如99.9%百分位)高影响特征向量作为毒性对齐方向集 \(\mathcal{T}\)。
干预策略——特征值衰减:对 \(\mathcal{T}\) 中的奇异值乘以衰减系数 \(\alpha < 1\):
$\(\sigma_i' = \alpha \cdot \sigma_i, \quad \text{for } i \in \mathcal{T}\)$
$\(W' = U \Sigma' V^T\)$
这有效降低了模型沿毒性相关语义方向的放大能力。\(\alpha=0.9\), \(k=1024\) 在毒性降低与困惑度保持之间取得最佳平衡。
损失函数 / 训练策略¶
EigenShift无需训练或微调。SVD分解是一次性操作,Frobenius重构损失极小(LLaMA-7B仅 \(8 \times 10^{-5}\))。干预仅修改输出层权重矩阵,不改变模型其他部分。评估使用RealToxicPrompts基准测毒性,Wikipedia语料测困惑度。
新提出的评估指标TPH Score:
其中 \(T\) 为毒性降低百分比,\(P\) 为困惑度变化百分比,取两者的调和平均。
实验关键数据¶
主实验¶
不同干预方法在5种LLM上的表现:
| 模型 | 方法 | 毒性(%) | 困惑度 | TPH Score(%) |
|---|---|---|---|---|
| LLaMA-2 | 无干预 | 11.13 | 6.23 | - |
| LLaMA-2 | Det-0 | 0% (↓100%) | 43517 (↑∞) | 0.03 |
| LLaMA-2 | Damp | 0.13% (↓98%) | 741.65 (↑∞) | 1.67 |
| LLaMA-2 | Aura | 3.59% (↓67%) | 19.3 (↑210%) | 43.73 |
| LLaMA-2 | EigenShift | 4.71% (↓58%) | 9.84 (↑58%) | 60.37 |
| Falcon | 无干预 | 9.74 | 8.99 | - |
| Falcon | EigenShift | 3.24% (↓79%) | 9.33 (↑3.78%) | 78.86 |
| MPT-7B | 无干预 | 11.13 | 6.8 | - |
| MPT-7B | Aura | 2.83% (↓99.75%) | 7.66 (↑12.65%) | 93.94 |
| MPT-7B | EigenShift | 2.33% (↓79%) | 6.9 (↑1.47%) | 87.74 |
消融实验¶
层级vs神经元级专家检测(AUROC比较):
| 模型 | 数据集 | 神经元AUROC | 层级AUROC | 提升 |
|---|---|---|---|---|
| BERT | Jigsaw | 54.37 | 63.42 | ↑16.67% |
| BART | Jigsaw | 53.95 | 63.37 | ↑17.44% |
| Llama-3.1 | Jigsaw | 54.99 | 63.22 | ↑14.96% |
| Chinese BERT | ToxiCN | 55.71 | 60.42 | ↑8.45% |
| GLM-4 | ToxiCN | 57.56 | 61.92 | ↑7.57% |
"专家"神经元的脆弱性:
| 模型 | AUROC>0.50 | AUROC>0.51 | AUROC>0.55 |
|---|---|---|---|
| BERT | 11.13% | 8.82% | 3.68% |
| BART | 19.91% | 14.60% | 5.85% |
| Llama | 18.64% | 15.42% | 7.08% |
| Mistral | 22.97% | 19.30% | 9.46% |
关键发现¶
- 绝大多数"专家"神经元AUROC在0.50-0.55之间,几乎等同随机,轻微调高阈值就大量消失
- 层级表征在英语和中文毒性检测上均显著优于神经元级分析
- 毒性检测专家一致性地位于网络中间层(归一化深度0.7-0.9)
- EigenShift在除MPT-7B外的所有模型上TPH Score最优,且Falcon上仅增加3.78%困惑度
- 定性案例显示EigenShift能将攻击性用词替换为中性词(如"rap*d"→"assault"),同时保持语义意图
亮点与洞察¶
- 概念清晰:明确区分"检测专家"和"生成专家",解释了为何往先方法导致灾难性遗忘
- 无需训练:一次SVD分解 + 奇异值衰减,计算开销极小
- TPH指标设计合理:用调和平均统一评估安全性和流畅性,避免了"杀死模型换取零毒性"的虚假安全
- Eigen-choice的可解释性:每个特征向量对应一个语义决策轴(如"粗鲁"、"直白"),使LLM从黑盒变为可解读的语义轴集合
局限与展望¶
- 仅分析了lm_head最终层,未探索不同层的SVD分解及语义方向的演化
- 评估限于≤7B规模的模型,更大模型的表现未知
- Eigen-choices的"语义轴"解释较为定性,缺乏更细粒度的自动语义标注
- 在MPT-7B上不及Aura,说明方法对不同架构的适应性存在差异
- 对非英语语言的毒性生成缓解效果未充分验证
相关工作与启发¶
- 与"Whispering Experts"的神经元级干预形成对比,指出了后者的根本缺陷
- 与PPLM和FUDGE等需外部模型的方法不同,EigenShift完全内生
- 与表征手术(Representation Surgery)方法互补,但更精确地定位于生成端
- 启发方向:eigen-choice框架可推广到仇恨言论、粗俗、文化敏感等任意语义概念的控制
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ SVD分解+特征值衰减的思路新颖且理论基础扎实
- 实验充分度: ⭐⭐⭐⭐ 五种LLM+多种基线+跨语言分析,但规模受限
- 写作质量: ⭐⭐⭐⭐ 三个RQ组织清晰,逻辑层层递进
- 价值: ⭐⭐⭐⭐⭐ 提供了一个轻量、无训练、可解释的LLM安全干预方法
相关论文¶
- [NeurIPS 2025] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers
- [NeurIPS 2025] Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots
- [AAAI 2026] Unintended Misalignment from Agentic Fine-Tuning: Risks and Mitigation
- [ICLR 2026] When Agents Persuade: Propaganda Generation and Mitigation in LLMs
- [CVPR 2025] SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics