Steering MoE LLMs via Expert (De)Activation¶

会议: ICLR 2026
arXiv: 2509.09660
代码: github.com/adobe-research/SteerMoE
领域: 模型压缩 / 可解释性与安全
关键词: MoE, 专家路由, 行为引导, 安全性, 忠实性, 推理时控制

一句话总结¶

提出 SteerMoE，通过对比配对输入检测行为关联专家，在推理时通过激活/去激活特定专家来引导 MoE LLM 的行为（安全性提升 +20%，忠实性提升 +27%），同时揭示 MoE 模型的安全对齐脆弱性（安全下降 -100%）。

给定展示对立行为的配对输入 \((x^{(1)}, x^{(2)})\)，计算每个专家的激活率差异：

\[p^{(1)}_{\ell,i} = \frac{A^{(1)}_{\ell,i}}{N^{(1)}}, \quad p^{(2)}_{\ell,i} = \frac{A^{(2)}_{\ell,i}}{N^{(2)}}\]

\[\Delta_{\ell,i} = p^{(1)}_{\ell,i} - p^{(2)}_{\ell,i}\]

\(\Delta_{\ell,i} > 0\) 表示专家 \(i\) 与行为 1 关联，\(\Delta_{\ell,i} < 0\) 与行为 2 关联。按 \(|\Delta_{\ell,i}|\) 排序选择要操控的专家。

将路由 logits 映射到 log-softmax 分数 \(\mathbf{s} = \log \text{softmax}(\mathbf{z})\) 统一尺度
激活规则：\(s_e \leftarrow s_{\max} + \varepsilon\)（\(e \in \mathcal{A}^+\)）
去激活规则：\(s_e \leftarrow s_{\min} - \varepsilon\)（\(e \in \mathcal{A}^-\)）
重新 softmax 归一化 → top-\(k\) 选择 → 加权求和

关键设计：\(\varepsilon\) 很小，保证被引导专家获得最高/最低优先级但不压垮其他专家，保持多专家混合结构。

忠实性：\(x^{(1)}\) = "Document: {Context} Question: {Q}"（有文档），\(x^{(2)}\) = "Question: {Q}"（无文档）
安全性：\(x^{(1)}\) = 安全拒绝回复，\(x^{(2)}\) = 不安全顺从回复（使用 BeaverTails 数据集）

模型	直接指令	SteerMoE 不安全	SteerMoE+AIM
GPT-OSS-120B	100% 安全	90% 安全	0% 安全
Qwen3-30B	98% 安全	60% 安全	2% 安全
Phi-3.5-MoE	100% 安全	94% 安全	0% 安全

引导方向	FaithEval-CF	FaithEval-Unans	CF-TriviaQA	平均改善
引导忠实	+10%~+27%	显著提升	显著提升	最高 +27%
控制集 MCTest	无下降	—	—	不影响通用 QA

组合攻击	GPT-OSS-120B	Qwen3	Phi-3.5	OLMoE
AIM alone	100%	2%	96%	100%
FFA alone	100%	48%	100%	92%
SteerMoE + AIM	0%	2%	0%	36%