跳转至

Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation

会议: NeurIPS 2025
arXiv: 2509.16660
代码: GitHub
领域: 机器人
关键词: 毒性缓解, 特征值分解, 可解释性, 语言模型安全, 神经元专家

一句话总结

提出EigenShift方法,通过对LLM最终输出层进行SVD分解,识别与毒性生成相关的特征方向(eigen-choices),并通过选择性衰减对应奇异值来实现毒性抑制——在LLaMA-2上降低58%毒性的同时仅增加3.62的困惑度,兼顾安全与流畅性。

研究背景与动机

大语言模型在生成流畅文本方面取得了巨大成功,但其倾向于生成有毒内容的问题仍然是AI安全的核心挑战。现有毒性缓解方法主要操作单个神经元激活(所谓的"概念专家"),但存在严重缺陷:

神经元激活不稳定:单个神经元的AUROC多在0.50-0.55之间,几乎等同随机分类器。当AUROC阈值从0.50提高到0.55时,BERT中"专家"神经元比例从11.13%骤降至3.68%

检测vs生成的混淆:现有方法将"毒性检测专家"和"毒性生成专家"混为一谈。抑制检测专家会导致模型丧失识别毒性的能力,引发灾难性遗忘

激进干预破坏流畅性:Det-0方法虽将毒性降至0%,但困惑度从6.23飙升至43517,TPH得分仅0.03%

论文围绕三个研究问题展开: - RQ1:个体神经元是否是可靠的毒性指示器? - RQ2:层级或结构性表征能否更鲁棒地捕获毒性? - RQ3:能否发现超越层和神经元的可解释性组件?

方法详解

整体框架

EigenShift分为三个阶段:(1) 从基础模型采样生成,用分类器标注毒性token;(2) 对输出投影矩阵做SVD分解,识别毒性相关的eigen-choices;(3) 选择性衰减对应奇异值,重构输出层权重。

关键设计

  1. 从神经元到层级专家

对于每个Transformer层,提取隐藏表示 \(H_l \in \mathbb{R}^{N \times d}\),使用k-means聚类(k=2),然后用AUROC评估聚类结果与毒性标签的一致性。实验表明层级AUROC从54.66%提升至63.32%(Jigsaw数据集),改善15.84个百分点。

设计动机:单个神经元执行线性变换,输出标量值 \(o=wx+b\),缺乏编码丰富语义信息的维度。层级嵌入(dim >> 1)能捕获复杂语义关系。此外dropout等随机训练使得没有单个神经元能保证一致地编码特定语义。

  1. Eigen-Choices:语义决策轴

对最终输出层权重矩阵 \(W \in \mathbb{R}^{V \times d}\) 进行SVD分解:

$\(W = U \Sigma V^T, \quad B=U, \quad A=\Sigma V^T\)$

其中 \(V^T \in \mathbb{R}^{d \times d}\) 定义隐藏状态的语义子空间正交基,\(\Sigma\) 的对角元素加权每个语义方向,\(U \in \mathbb{R}^{V \times d}\) 将语义方向映射到词表token。每个 \(v_i\)\(V\) 的列向量)对应一个"eigen-choice"——模型在文本生成中做决策的基本语义轴。

对于隐藏状态 \(h\),沿第 \(i\) 个eigen-choice的激活为 \(a_i = v_i^T h\)。假设某些特征向量 \(v_{toxic}\) 与毒性生成系统性关联。

  1. 毒性方向检测与EigenShift干预

计算每个特征向量在毒性样本和非毒性样本上的方向影响:

$\(\Delta_i = \mathbb{E}_{h_\Phi \sim \text{Toxic}}[v_i^T h_\Phi] - \mathbb{E}_{h_\Psi \sim \text{Non-Toxic}}[v_i^T h_\Psi]\)$

\(\Delta_i\) 排序,选取top-k(如99.9%百分位)高影响特征向量作为毒性对齐方向集 \(\mathcal{T}\)

干预策略——特征值衰减:对 \(\mathcal{T}\) 中的奇异值乘以衰减系数 \(\alpha < 1\)

$\(\sigma_i' = \alpha \cdot \sigma_i, \quad \text{for } i \in \mathcal{T}\)$

$\(W' = U \Sigma' V^T\)$

这有效降低了模型沿毒性相关语义方向的放大能力。\(\alpha=0.9\), \(k=1024\) 在毒性降低与困惑度保持之间取得最佳平衡。

损失函数 / 训练策略

EigenShift无需训练或微调。SVD分解是一次性操作,Frobenius重构损失极小(LLaMA-7B仅 \(8 \times 10^{-5}\))。干预仅修改输出层权重矩阵,不改变模型其他部分。评估使用RealToxicPrompts基准测毒性,Wikipedia语料测困惑度。

新提出的评估指标TPH Score

\[\text{TPH}(T,P) = \frac{2 \cdot T \cdot \frac{1}{1+|P|}}{T + \frac{1}{1+|P|}}\]

其中 \(T\) 为毒性降低百分比,\(P\) 为困惑度变化百分比,取两者的调和平均。

实验关键数据

主实验

不同干预方法在5种LLM上的表现:

模型 方法 毒性(%) 困惑度 TPH Score(%)
LLaMA-2 无干预 11.13 6.23 -
LLaMA-2 Det-0 0% (↓100%) 43517 (↑∞) 0.03
LLaMA-2 Damp 0.13% (↓98%) 741.65 (↑∞) 1.67
LLaMA-2 Aura 3.59% (↓67%) 19.3 (↑210%) 43.73
LLaMA-2 EigenShift 4.71% (↓58%) 9.84 (↑58%) 60.37
Falcon 无干预 9.74 8.99 -
Falcon EigenShift 3.24% (↓79%) 9.33 (↑3.78%) 78.86
MPT-7B 无干预 11.13 6.8 -
MPT-7B Aura 2.83% (↓99.75%) 7.66 (↑12.65%) 93.94
MPT-7B EigenShift 2.33% (↓79%) 6.9 (↑1.47%) 87.74

消融实验

层级vs神经元级专家检测(AUROC比较):

模型 数据集 神经元AUROC 层级AUROC 提升
BERT Jigsaw 54.37 63.42 ↑16.67%
BART Jigsaw 53.95 63.37 ↑17.44%
Llama-3.1 Jigsaw 54.99 63.22 ↑14.96%
Chinese BERT ToxiCN 55.71 60.42 ↑8.45%
GLM-4 ToxiCN 57.56 61.92 ↑7.57%

"专家"神经元的脆弱性:

模型 AUROC>0.50 AUROC>0.51 AUROC>0.55
BERT 11.13% 8.82% 3.68%
BART 19.91% 14.60% 5.85%
Llama 18.64% 15.42% 7.08%
Mistral 22.97% 19.30% 9.46%

关键发现

  1. 绝大多数"专家"神经元AUROC在0.50-0.55之间,几乎等同随机,轻微调高阈值就大量消失
  2. 层级表征在英语和中文毒性检测上均显著优于神经元级分析
  3. 毒性检测专家一致性地位于网络中间层(归一化深度0.7-0.9)
  4. EigenShift在除MPT-7B外的所有模型上TPH Score最优,且Falcon上仅增加3.78%困惑度
  5. 定性案例显示EigenShift能将攻击性用词替换为中性词(如"rap*d"→"assault"),同时保持语义意图

亮点与洞察

  • 概念清晰:明确区分"检测专家"和"生成专家",解释了为何往先方法导致灾难性遗忘
  • 无需训练:一次SVD分解 + 奇异值衰减,计算开销极小
  • TPH指标设计合理:用调和平均统一评估安全性和流畅性,避免了"杀死模型换取零毒性"的虚假安全
  • Eigen-choice的可解释性:每个特征向量对应一个语义决策轴(如"粗鲁"、"直白"),使LLM从黑盒变为可解读的语义轴集合

局限与展望

  • 仅分析了lm_head最终层,未探索不同层的SVD分解及语义方向的演化
  • 评估限于≤7B规模的模型,更大模型的表现未知
  • Eigen-choices的"语义轴"解释较为定性,缺乏更细粒度的自动语义标注
  • 在MPT-7B上不及Aura,说明方法对不同架构的适应性存在差异
  • 对非英语语言的毒性生成缓解效果未充分验证

相关工作与启发

  • 与"Whispering Experts"的神经元级干预形成对比,指出了后者的根本缺陷
  • 与PPLM和FUDGE等需外部模型的方法不同,EigenShift完全内生
  • 与表征手术(Representation Surgery)方法互补,但更精确地定位于生成端
  • 启发方向:eigen-choice框架可推广到仇恨言论、粗俗、文化敏感等任意语义概念的控制

评分

  • 新颖性: ⭐⭐⭐⭐⭐ SVD分解+特征值衰减的思路新颖且理论基础扎实
  • 实验充分度: ⭐⭐⭐⭐ 五种LLM+多种基线+跨语言分析,但规模受限
  • 写作质量: ⭐⭐⭐⭐ 三个RQ组织清晰,逻辑层层递进
  • 价值: ⭐⭐⭐⭐⭐ 提供了一个轻量、无训练、可解释的LLM安全干预方法

相关论文