SOM Directions are Better than One: Multi-Directional Refusal Suppression in Language Models¶
会议: AAAI 2026
arXiv: 2511.08379
代码: GitHub
领域: LLM Alignment / 机械可解释性
关键词: 拒绝抑制, 自组织映射, 多方向消融, 表征空间, 越狱攻击
一句话总结¶
证明LLM的拒绝行为并非由单一方向编码,而是形成低维流形,利用自组织映射(SOM)提取多个拒绝方向并通过贝叶斯优化搜索最优消融组合,在多个模型上超越单方向基线和专用越狱算法。
研究背景与动机¶
领域现状:随着机械可解释性(mechanistic interpretability)的兴起,研究者发现LLM的安全拒绝行为可以用表征空间中的方向来编码。Arditi et al.(2024)提出了开创性的single direction (SD)方法——通过计算有害与无害prompt表征的质心差作为"拒绝方向",将其从模型中消融可绕过安全对齐。
现有痛点: - 单方向假设过于简化:机械可解释性的最新研究表明,语义和功能概念(如星期几、三角函数等)并非由单一线性方向编码,而是跨越高维空间中的低维流形 - SD方法效果有限:在部分模型上SD消融后的攻击成功率接近0%(如LLama2-7B上SD的ASR=0%),说明单一方向远不足以捕获完整的拒绝行为 - 正交多方向方法(如RDO)也不够:虽然提取了多个正交方向,但每次仍只消融单个方向,忽略了方向之间的协同效应
核心矛盾:拒绝行为的多面性(不同类别有害内容的拒绝可能编码在不同方向上)与现有方法单一方向处理的局限之间存在根本冲突。
本文目标:如何系统性地发现表征空间中的多个拒绝方向,并利用它们的组合实现更有效的拒绝抑制。
切入角度:利用自组织映射(SOM)的拓扑保持和多神经元特性来建模有害prompt表征的流形结构,进而提取多个方向。
核心idea:(1)理论证明单神经元SOM收敛到质心(即SD是SOM的特例);(2)多神经元SOM捕获流形的局部结构,每个神经元减去无害质心得到一个拒绝方向;(3)用贝叶斯优化从候选方向池中搜索最优的k个方向组合进行消融。
方法详解¶
整体框架¶
多方向消融(MD)方法分四步:(1)从目标模型提取有害/无害prompt的内部表征;(2)在有害表征上训练SOM得到多个神经元;(3)每个神经元减去无害质心得到候选拒绝方向集合;(4)用贝叶斯优化搜索最优k个方向组合,构造消融算子应用到模型所有层。
关键设计¶
模块一:SOM泛化质心的理论保证¶
- 功能:证明SD方法是MD方法的特例,建立理论基础
- 核心思路:SD通过质心差定义拒绝方向 \(r^{(l)} = \mu^{(l)} - \nu^{(l)}\),其中 \(\mu\) 和 \(\nu\) 分别是有害和无害prompt表征的质心。Proposition 1证明了单神经元SOM在学习率 \(\alpha < 1/2\) 下收敛到数据质心,误差界为 \((1-\alpha)^t \|w^{(0)}-\mu\| + \alpha \sigma\)。因此SD恰好等价于在有害分布上训练一个单神经元SOM
- 设计动机:建立SD与MD之间的优雅联系——MD不是一种全新的方法,而是SD的自然推广,从单个神经元扩展到多个神经元
模块二:基于SOM的多方向提取¶
- 功能:用SOM的多个神经元捕获有害prompt表征的流形结构,提取多个拒绝方向
- 核心思路:
- 选择最佳消融层 \(l^*\)(使拒绝token生成概率最低的层)
- 收集有害表征 \(\mathcal{X}_{hf}\)(所有有害prompt在 \(l^*\) 层最后一个token位置的表征)和无害质心 \(\nu\)
- 在 \(\mathcal{X}_{hf}\) 上训练4×4六角拓扑SOM(16个神经元),训练10000步,学习率 \(\alpha_t = 0.01/(1+2t/T)\),高斯邻域函数 \(\sigma=0.3\)
- 每个SOM神经元 \(w_\iota\) 减去无害质心 \(\nu\) 得到方向 \(r_\iota = w_\iota - \nu\),共16个候选方向
- 设计动机:无害prompt表征较为同质,用单个质心即可代表;而有害prompt涵盖暴力、歧视、犯罪等多种类别,表征分布更复杂,需要多个代表点。SOM的拓扑保持特性确保相近的有害类别映射到邻近神经元
模块三:贝叶斯优化方向搜索¶
- 功能:从16个候选方向中搜索最优的k个(k∈[2,7])进行组合消融
- 核心思路:定义优化问题 \(\max_{r_1,...,r_k \in \mathcal{R}} \mathbb{E}_{\mathcal{D}_{hf}}[\mathcal{J}(t, \hat{o})]\),其中 \(\mathcal{J}\) 是judge模型判断响应是否有害且合规。消融算子为多个orthogonal projection的复合:\(\Psi = \Pi_{r_1^*} \circ \cdots \circ \Pi_{r_k^*}\),应用到每一层。使用TPE采样器的贝叶斯优化在HarmBench验证集上搜索,\(k \leq 3\) 时128次试验,\(k > 3\) 时512次试验
- 设计动机:穷举搜索随k增大迅速不可行(\(\binom{16}{7} = 11440\)),贝叶斯优化在黑箱目标上高效;Judge模型(HarmBench-Llama-2-13B-cls)的有害性判断作为目标函数,直接优化攻击成功率
损失函数 / 训练策略¶
SOM训练目标:每步更新所有神经元 \(w_\iota^{(t+1)} = w_\iota^{(t)} + \alpha_t \theta(\iota^*(x^{(t)}), \iota)(x^{(t)} - w_\iota^{(t)})\),其中 \(\iota^*\) 为最佳匹配单元
消融算子定义:对方向 \(r\) 的消融为正交投影 \(\Pi_r(x) = x - x\hat{r}\hat{r}^T\)
多方向消融:steered model为 \(\Psi f = f^{(L+1)} \circ \Psi \circ f^{(L)} \circ \cdots \circ \Psi \circ f^{(1)}\),同一消融算子 \(\Psi\) 应用于所有层
实验关键数据¶
主实验¶
HarmBench上的攻击成功率(ASR)对比:
| 模型 | MD (ours) | SD | RDO | GCG | SAA |
|---|---|---|---|---|---|
| LLama2-7B | 59.11 | 0.0 | 1.25 | 32.70 | 57.90 |
| LLama3-8B | 88.05 | 15.09 | 32.07 | 1.90 | 91.20 |
| Qwen-7B | 88.05 | 81.13 | 83.01 | — | — |
关键观察: - MD在LLama2-7B上ASR=59.1%,而SD=0%,RDO=1.25%——单方向几乎无法突破该模型的拒绝 - MD接近甚至超过prompt级优化的GCG和SAA(后者需对每个prompt做梯度优化,而MD是universal的)
消融实验¶
- 方向数量k的影响:随着消融方向数量从1增加到7,ASR持续提升,验证了多方向的必要性
- SOM vs k-means:SOM因拓扑保持特性优于k-means聚类
- 鲁棒模型测试:在Mistral-7B-RR(经过Representation Rerouting防御的模型)上,MD仍能取得非零ASR
关键发现¶
- 拒绝是多维流形而非单一方向:SD在LLama2-7B上完全失效(ASR=0%)而MD达到59%,证明多方向视角的必要性
- Universal方法可媲美prompt-specific攻击:MD是在表征空间做一次性的方向消融(对所有prompt通用),却能接近GCG/SAA这类为每个prompt单独优化的攻击
- 机械性分析:MD消融后有害表征被压缩并朝无害区域移动,SOM神经元近似了拒绝流形的不同区域
- 方向之间密切相关但不重叠:提取的多个方向在余弦相似度上接近但不相同,验证了低维流形而非独立方向的假设
亮点与洞察¶
- 从单方向到流形的范式演进:将机械可解释性中"概念=多方向流形"的新认知首次系统性地应用于拒绝行为分析,是方法论层面的重要推进
- 理论与实践的优雅结合:Proposition 1将SOM与质心建立了精确联系(SD是SOM的特例),使MD成为SD的自然theoretically-grounded推广
- SOM选择的合理性论证:相比k-means等需要球形簇假设的方法,SOM的拓扑保持特性更适合建模高维流形结构
- 对AI安全的双刃剑意义:MD方法揭示了现有安全对齐的脆弱性,但也为设计更鲁棒的防御指明了方向
局限与展望¶
- 贝叶斯优化搜索需要在验证集上评估judge模型,计算开销随k增大而增长
- SOM的超参数(网格大小4×4、训练步数等)可能需要针对不同模型调优
- 消融操作改变了模型的整体表征结构,可能对非有害prompt的正常性能有影响(未充分分析)
- 仅测试了159个HarmBench prompt,评估规模相对有限
- 当前方法使用无害prompt的单个质心——如果无害分布也有多样性结构,可能也需要SOM建模
相关工作与启发¶
- Arditi et al. (2024):single direction方法的开创者——本文的直接前驱和对比基线
- Wollschläger et al. (2025) RDO:提出正交多方向优化但仍逐一消融——本文通过组合消融超越之
- Engels et al. (2025)/Kantamneni et al. (2025):在可解释性领域证明概念编码为low-dimensional manifold——本文将此洞察引入拒绝行为分析
- GCG/SAA越狱算法:prompt级攻击——与MD的universal消融方式形成互补对比
- 启发:安全对齐防御需要从"单一对抗方向"升级到"流形级防御",才能应对MD等多方向攻击
评分¶
⭐⭐⭐⭐
创新性强——首次将SOM用于拒绝方向提取,理论上证明了SD是其特例,实验中显著超越SD和专用越狱算法。理论推导完整,实验设计合理。不足在于计算开销和对模型正常性能影响的分析不充分。
相关论文¶
- [AAAI 2026] ToC: Tree-of-Claims Search with Multi-Agent Language Models
- [NeurIPS 2025] Are Greedy Task Orderings Better Than Random in Continual Linear Regression?
- [AAAI 2026] Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models
- [NeurIPS 2025] Better Estimation of the Kullback-Leibler Divergence Between Language Models
- [AAAI 2026] HSKBenchmark: Modeling and Benchmarking Chinese Second Language Acquisition in Large Language Models through Curriculum Tuning