SOM Directions are Better than One: Multi-Directional Refusal Suppression in Language Models¶

会议: AAAI 2026
arXiv: 2511.08379
代码: GitHub
领域: LLM Alignment / 机械可解释性
关键词: 拒绝抑制, 自组织映射, 多方向消融, 表征空间, 越狱攻击

一句话总结¶

证明LLM的拒绝行为并非由单一方向编码，而是形成低维流形，利用自组织映射（SOM）提取多个拒绝方向并通过贝叶斯优化搜索最优消融组合，在多个模型上超越单方向基线和专用越狱算法。

研究背景与动机¶

领域现状：随着机械可解释性（mechanistic interpretability）的兴起，研究者发现LLM的安全拒绝行为可以用表征空间中的方向来编码。Arditi et al.（2024）提出了开创性的single direction (SD)方法——通过计算有害与无害prompt表征的质心差作为"拒绝方向"，将其从模型中消融可绕过安全对齐。

现有痛点： - 单方向假设过于简化：机械可解释性的最新研究表明，语义和功能概念（如星期几、三角函数等）并非由单一线性方向编码，而是跨越高维空间中的低维流形 - SD方法效果有限：在部分模型上SD消融后的攻击成功率接近0%（如LLama2-7B上SD的ASR=0%），说明单一方向远不足以捕获完整的拒绝行为 - 正交多方向方法（如RDO）也不够：虽然提取了多个正交方向，但每次仍只消融单个方向，忽略了方向之间的协同效应

核心矛盾：拒绝行为的多面性（不同类别有害内容的拒绝可能编码在不同方向上）与现有方法单一方向处理的局限之间存在根本冲突。

本文目标：如何系统性地发现表征空间中的多个拒绝方向，并利用它们的组合实现更有效的拒绝抑制。

切入角度：利用自组织映射（SOM）的拓扑保持和多神经元特性来建模有害prompt表征的流形结构，进而提取多个方向。

核心idea：(1)理论证明单神经元SOM收敛到质心（即SD是SOM的特例）；(2)多神经元SOM捕获流形的局部结构，每个神经元减去无害质心得到一个拒绝方向；(3)用贝叶斯优化从候选方向池中搜索最优的k个方向组合进行消融。

方法详解¶

整体框架¶

多方向消融（MD）方法分四步：(1)从目标模型提取有害/无害prompt的内部表征；(2)在有害表征上训练SOM得到多个神经元；(3)每个神经元减去无害质心得到候选拒绝方向集合；(4)用贝叶斯优化搜索最优k个方向组合，构造消融算子应用到模型所有层。

关键设计¶

模块一：SOM泛化质心的理论保证¶

功能：证明SD方法是MD方法的特例，建立理论基础
核心思路：SD通过质心差定义拒绝方向 \(r^{(l)} = \mu^{(l)} - \nu^{(l)}\)，其中 \(\mu\) 和 \(\nu\) 分别是有害和无害prompt表征的质心。Proposition 1证明了单神经元SOM在学习率 \(\alpha < 1/2\) 下收敛到数据质心，误差界为 \((1-\alpha)^t \|w^{(0)}-\mu\| + \alpha \sigma\)。因此SD恰好等价于在有害分布上训练一个单神经元SOM
设计动机：建立SD与MD之间的优雅联系——MD不是一种全新的方法，而是SD的自然推广，从单个神经元扩展到多个神经元

模块二：基于SOM的多方向提取¶

功能：用SOM的多个神经元捕获有害prompt表征的流形结构，提取多个拒绝方向
核心思路：
- 选择最佳消融层 \(l^*\)（使拒绝token生成概率最低的层）
- 收集有害表征 \(\mathcal{X}_{hf}\)（所有有害prompt在 \(l^*\) 层最后一个token位置的表征）和无害质心 \(\nu\)
- 在 \(\mathcal{X}_{hf}\) 上训练4×4六角拓扑SOM（16个神经元），训练10000步，学习率 \(\alpha_t = 0.01/(1+2t/T)\)，高斯邻域函数 \(\sigma=0.3\)
- 每个SOM神经元 \(w_\iota\) 减去无害质心 \(\nu\) 得到方向 \(r_\iota = w_\iota - \nu\)，共16个候选方向
设计动机：无害prompt表征较为同质，用单个质心即可代表；而有害prompt涵盖暴力、歧视、犯罪等多种类别，表征分布更复杂，需要多个代表点。SOM的拓扑保持特性确保相近的有害类别映射到邻近神经元

模块三：贝叶斯优化方向搜索¶

功能：从16个候选方向中搜索最优的k个（k∈[2,7]）进行组合消融
核心思路：定义优化问题 \(\max_{r_1,...,r_k \in \mathcal{R}} \mathbb{E}_{\mathcal{D}_{hf}}[\mathcal{J}(t, \hat{o})]\)，其中 \(\mathcal{J}\) 是judge模型判断响应是否有害且合规。消融算子为多个orthogonal projection的复合：\(\Psi = \Pi_{r_1^*} \circ \cdots \circ \Pi_{r_k^*}\)，应用到每一层。使用TPE采样器的贝叶斯优化在HarmBench验证集上搜索，\(k \leq 3\) 时128次试验，\(k > 3\) 时512次试验
设计动机：穷举搜索随k增大迅速不可行（\(\binom{16}{7} = 11440\)），贝叶斯优化在黑箱目标上高效；Judge模型（HarmBench-Llama-2-13B-cls）的有害性判断作为目标函数，直接优化攻击成功率

损失函数 / 训练策略¶

SOM训练目标：每步更新所有神经元 \(w_\iota^{(t+1)} = w_\iota^{(t)} + \alpha_t \theta(\iota^*(x^{(t)}), \iota)(x^{(t)} - w_\iota^{(t)})\)，其中 \(\iota^*\) 为最佳匹配单元

消融算子定义：对方向 \(r\) 的消融为正交投影 \(\Pi_r(x) = x - x\hat{r}\hat{r}^T\)

多方向消融：steered model为 \(\Psi f = f^{(L+1)} \circ \Psi \circ f^{(L)} \circ \cdots \circ \Psi \circ f^{(1)}\)，同一消融算子 \(\Psi\) 应用于所有层

实验关键数据¶

主实验¶

HarmBench上的攻击成功率（ASR）对比：

模型	MD (ours)	SD	RDO	GCG	SAA
LLama2-7B	59.11	0.0	1.25	32.70	57.90
LLama3-8B	88.05	15.09	32.07	1.90	91.20
Qwen-7B	88.05	81.13	83.01	—	—

关键观察： - MD在LLama2-7B上ASR=59.1%，而SD=0%，RDO=1.25%——单方向几乎无法突破该模型的拒绝 - MD接近甚至超过prompt级优化的GCG和SAA（后者需对每个prompt做梯度优化，而MD是universal的）

消融实验¶

方向数量k的影响：随着消融方向数量从1增加到7，ASR持续提升，验证了多方向的必要性
SOM vs k-means：SOM因拓扑保持特性优于k-means聚类
鲁棒模型测试：在Mistral-7B-RR（经过Representation Rerouting防御的模型）上，MD仍能取得非零ASR

关键发现¶

拒绝是多维流形而非单一方向：SD在LLama2-7B上完全失效（ASR=0%）而MD达到59%，证明多方向视角的必要性
Universal方法可媲美prompt-specific攻击：MD是在表征空间做一次性的方向消融（对所有prompt通用），却能接近GCG/SAA这类为每个prompt单独优化的攻击
机械性分析：MD消融后有害表征被压缩并朝无害区域移动，SOM神经元近似了拒绝流形的不同区域
方向之间密切相关但不重叠：提取的多个方向在余弦相似度上接近但不相同，验证了低维流形而非独立方向的假设

亮点与洞察¶

从单方向到流形的范式演进：将机械可解释性中"概念=多方向流形"的新认知首次系统性地应用于拒绝行为分析，是方法论层面的重要推进
理论与实践的优雅结合：Proposition 1将SOM与质心建立了精确联系（SD是SOM的特例），使MD成为SD的自然theoretically-grounded推广
SOM选择的合理性论证：相比k-means等需要球形簇假设的方法，SOM的拓扑保持特性更适合建模高维流形结构
对AI安全的双刃剑意义：MD方法揭示了现有安全对齐的脆弱性，但也为设计更鲁棒的防御指明了方向

局限与展望¶

贝叶斯优化搜索需要在验证集上评估judge模型，计算开销随k增大而增长
SOM的超参数（网格大小4×4、训练步数等）可能需要针对不同模型调优
消融操作改变了模型的整体表征结构，可能对非有害prompt的正常性能有影响（未充分分析）
仅测试了159个HarmBench prompt，评估规模相对有限
当前方法使用无害prompt的单个质心——如果无害分布也有多样性结构，可能也需要SOM建模

评分¶

⭐⭐⭐⭐

创新性强——首次将SOM用于拒绝方向提取，理论上证明了SD是其特例，实验中显著超越SD和专用越狱算法。理论推导完整，实验设计合理。不足在于计算开销和对模型正常性能影响的分析不充分。