Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation¶

会议: NeurIPS 2025
arXiv: 2509.16660
代码: GitHub
领域: 机器人
关键词: 毒性缓解, 特征值分解, 可解释性, 语言模型安全, 神经元专家

一句话总结¶

提出EigenShift方法，通过对LLM最终输出层进行SVD分解，识别与毒性生成相关的特征方向（eigen-choices），并通过选择性衰减对应奇异值来实现毒性抑制——在LLaMA-2上降低58%毒性的同时仅增加3.62的困惑度，兼顾安全与流畅性。

研究背景与动机¶

大语言模型在生成流畅文本方面取得了巨大成功，但其倾向于生成有毒内容的问题仍然是AI安全的核心挑战。现有毒性缓解方法主要操作单个神经元激活（所谓的"概念专家"），但存在严重缺陷：

神经元激活不稳定：单个神经元的AUROC多在0.50-0.55之间，几乎等同随机分类器。当AUROC阈值从0.50提高到0.55时，BERT中"专家"神经元比例从11.13%骤降至3.68%

检测vs生成的混淆：现有方法将"毒性检测专家"和"毒性生成专家"混为一谈。抑制检测专家会导致模型丧失识别毒性的能力，引发灾难性遗忘

激进干预破坏流畅性：Det-0方法虽将毒性降至0%，但困惑度从6.23飙升至43517，TPH得分仅0.03%

论文围绕三个研究问题展开： - RQ1：个体神经元是否是可靠的毒性指示器？ - RQ2：层级或结构性表征能否更鲁棒地捕获毒性？ - RQ3：能否发现超越层和神经元的可解释性组件？

方法详解¶

整体框架¶

EigenShift分为三个阶段：(1) 从基础模型采样生成，用分类器标注毒性token；(2) 对输出投影矩阵做SVD分解，识别毒性相关的eigen-choices；(3) 选择性衰减对应奇异值，重构输出层权重。

关键设计¶

从神经元到层级专家

对于每个Transformer层，提取隐藏表示 $H_l \in \mathbb{R}^{N \times d}$，使用k-means聚类（k=2），然后用AUROC评估聚类结果与毒性标签的一致性。实验表明层级AUROC从54.66%提升至63.32%（Jigsaw数据集），改善15.84个百分点。

设计动机：单个神经元执行线性变换，输出标量值 $o=wx+b$，缺乏编码丰富语义信息的维度。层级嵌入（dim >> 1）能捕获复杂语义关系。此外dropout等随机训练使得没有单个神经元能保证一致地编码特定语义。

Eigen-Choices：语义决策轴

对最终输出层权重矩阵 $W \in \mathbb{R}^{V \times d}$ 进行SVD分解：

$$W = U \Sigma V^T, \quad B=U, \quad A=\Sigma V^T$$

其中 $V^T \in \mathbb{R}^{d \times d}$ 定义隐藏状态的语义子空间正交基，$\Sigma$ 的对角元素加权每个语义方向，$U \in \mathbb{R}^{V \times d}$ 将语义方向映射到词表token。每个 $v_i$（$V$ 的列向量）对应一个"eigen-choice"——模型在文本生成中做决策的基本语义轴。

对于隐藏状态 $h$，沿第 $i$ 个eigen-choice的激活为 $a_i = v_i^T h$。假设某些特征向量 $v_{toxic}$ 与毒性生成系统性关联。

毒性方向检测与EigenShift干预

计算每个特征向量在毒性样本和非毒性样本上的方向影响：

$$\Delta_i = \mathbb{E}_{h_\Phi \sim \text{Toxic}}[v_i^T h_\Phi] - \mathbb{E}_{h_\Psi \sim \text{Non-Toxic}}[v_i^T h_\Psi]$$

按 $\Delta_i$ 排序，选取top-k（如99.9%百分位）高影响特征向量作为毒性对齐方向集 $\mathcal{T}$。

干预策略——特征值衰减：对 $\mathcal{T}$ 中的奇异值乘以衰减系数 $\alpha < 1$：

$$\sigma_i' = \alpha \cdot \sigma_i, \quad \text{for } i \in \mathcal{T}$$

$$W' = U \Sigma' V^T$$

这有效降低了模型沿毒性相关语义方向的放大能力。$\alpha=0.9$, $k=1024$ 在毒性降低与困惑度保持之间取得最佳平衡。

损失函数 / 训练策略¶

EigenShift无需训练或微调。SVD分解是一次性操作，Frobenius重构损失极小（LLaMA-7B仅 $8 \times 10^{-5}$）。干预仅修改输出层权重矩阵，不改变模型其他部分。评估使用RealToxicPrompts基准测毒性，Wikipedia语料测困惑度。

新提出的评估指标TPH Score：

\[\text{TPH}(T,P) = \frac{2 \cdot T \cdot \frac{1}{1+|P|}}{T + \frac{1}{1+|P|}}\]

其中 $T$ 为毒性降低百分比，$P$ 为困惑度变化百分比，取两者的调和平均。

实验关键数据¶

主实验¶

不同干预方法在5种LLM上的表现：

模型	方法	毒性(%)	困惑度	TPH Score(%)
LLaMA-2	无干预	11.13	6.23	-
LLaMA-2	Det-0	0% (↓100%)	43517 (↑∞)	0.03
LLaMA-2	Damp	0.13% (↓98%)	741.65 (↑∞)	1.67
LLaMA-2	Aura	3.59% (↓67%)	19.3 (↑210%)	43.73
LLaMA-2	EigenShift	4.71% (↓58%)	9.84 (↑58%)	60.37
Falcon	无干预	9.74	8.99	-
Falcon	EigenShift	3.24% (↓79%)	9.33 (↑3.78%)	78.86
MPT-7B	无干预	11.13	6.8	-
MPT-7B	Aura	2.83% (↓99.75%)	7.66 (↑12.65%)	93.94
MPT-7B	EigenShift	2.33% (↓79%)	6.9 (↑1.47%)	87.74

消融实验¶

层级vs神经元级专家检测（AUROC比较）：

模型	数据集	神经元AUROC	层级AUROC	提升
BERT	Jigsaw	54.37	63.42	↑16.67%
BART	Jigsaw	53.95	63.37	↑17.44%
Llama-3.1	Jigsaw	54.99	63.22	↑14.96%
Chinese BERT	ToxiCN	55.71	60.42	↑8.45%
GLM-4	ToxiCN	57.56	61.92	↑7.57%

"专家"神经元的脆弱性：

模型	AUROC>0.50	AUROC>0.51	AUROC>0.55
BERT	11.13%	8.82%	3.68%
BART	19.91%	14.60%	5.85%
Llama	18.64%	15.42%	7.08%
Mistral	22.97%	19.30%	9.46%

关键发现¶

绝大多数"专家"神经元AUROC在0.50-0.55之间，几乎等同随机，轻微调高阈值就大量消失
层级表征在英语和中文毒性检测上均显著优于神经元级分析
毒性检测专家一致性地位于网络中间层（归一化深度0.7-0.9）
EigenShift在除MPT-7B外的所有模型上TPH Score最优，且Falcon上仅增加3.78%困惑度
定性案例显示EigenShift能将攻击性用词替换为中性词（如"rap*d"→"assault"），同时保持语义意图

亮点与洞察¶

概念清晰：明确区分"检测专家"和"生成专家"，解释了为何往先方法导致灾难性遗忘
无需训练：一次SVD分解 + 奇异值衰减，计算开销极小
TPH指标设计合理：用调和平均统一评估安全性和流畅性，避免了"杀死模型换取零毒性"的虚假安全
Eigen-choice的可解释性：每个特征向量对应一个语义决策轴（如"粗鲁"、"直白"），使LLM从黑盒变为可解读的语义轴集合

局限与展望¶

仅分析了lm_head最终层，未探索不同层的SVD分解及语义方向的演化
评估限于≤7B规模的模型，更大模型的表现未知
Eigen-choices的"语义轴"解释较为定性，缺乏更细粒度的自动语义标注
在MPT-7B上不及Aura，说明方法对不同架构的适应性存在差异
对非英语语言的毒性生成缓解效果未充分验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ SVD分解+特征值衰减的思路新颖且理论基础扎实
实验充分度: ⭐⭐⭐⭐ 五种LLM+多种基线+跨语言分析，但规模受限
写作质量: ⭐⭐⭐⭐ 三个RQ组织清晰，逻辑层层递进
价值: ⭐⭐⭐⭐⭐ 提供了一个轻量、无训练、可解释的LLM安全干预方法