Angular Steering: Behavior Control via Rotation in Activation Space¶
会议: NeurIPS 2025
arXiv: 2510.26243
代码: https://github.com/lone17/angular-steering/
领域: LLM可控性 / 可解释性
关键词: 激活引导, 行为控制, 旋转变换, 拒绝引导, RMSNorm
一句话总结¶
提出 Angular Steering,将 LLM 激活引导统一建模为固定 2D 子空间中的旋转操作,提供连续、细粒度、范数保持的行为控制,统一了现有的激活加法和方向消融方法,在多个 LLM 家族(3B-14B)上实现鲁棒的行为控制。
研究背景与动机¶
-
领域现状:激活引导通过在推理时修改 LLM 内部表示来控制行为,主要有激活加法和方向消融两种方法。
-
现有痛点:激活加法系数调参困难,方向消融只能完全移除特征。两者都受限于 2D 子空间但未充分利用其几何结构。
-
切入角度:现代 LLM 的 RMSNorm 使方向成为核心表示单元,旋转是范数保持的自然操作。
-
核心idea:将激活引导重新建模为 2D 子空间中的旋转,角度提供连续可解释的控制旋钮。
方法详解¶
整体框架¶
在归一化层后,将激活向量在 Span{\(\bm{h}\), \(\bm{d}_{\text{feat}}\)} 2D 平面上旋转指定角度。\(\theta = 0\) 保持原始,\(90°\) 等价方向消融,\(> 90°\) 可翻转行为。
关键设计¶
- Angular Steering:固定 2D 子空间旋转,0-360° 全范围控制,范数保持
- 取归一化后激活 \(\hat{\bm{h}}\),计算其与特征方向 \(\hat{\bm{d}}_{\text{feat}}\) 的当前角度后旋转到目标角度
- RMSNorm 先映射到 \(\sqrt{d_{\text{model}}}\)-缩放的单位球面,任何之前的修改都被视为范数保持的
- Adaptive Angular Steering:只对与目标特征对齐的激活施加旋转,对无关激活保持不变
- 设计动机:减少对无关特征的干扰,提高生成连贯性
- 统一视角:激活加法 = <180° 旋转(且系数敏感),方向消融 = 90° 旋转(不可部分抑制)
特征方向提取¶
- 使用对比数据集(AdvBench 416 有害指令 vs Alpaca 512 无害样本)
- 记录每层归一化后的激活,计算均值差作为局部特征方向
- 每个 Transformer 块有两个提取点(Attention前 + MLP前)
- 实验验证特征方向有效分离对比样本:有害/无害数据在特征方向上的投影方向粻然相反
实验关键数据¶
主实验¶
在 Llama 3、Qwen 2.5、Gemma 2 家族(3B-14B)上评估。角度 20° 拒绝、100° 间接回应、200° 直接顺从、300° 重定向。Angular Steering 在更大角度范围内保持语言建模性能。
| 配置 | TinyBenchmarks | 行为控制 |
|---|---|---|
| 无引导 | 基线 | 无 |
| 激活加法 | 不稳定 | 可控但范围有限 |
| 方向消融 | 较好 | 仅完全移除 |
| Angular | 稳定 | 连续可控 |
| Adaptive Angular | 最佳 | 连续+高连贯 |
亮点与洞察¶
- 几何视角统一现有方法,思路优雅
- 方向 > 幅度的洞察利用 RMSNorm 几何性质
局限性 / 可改进方向¶
- 仅验证拒绝/情感引导,多特征同时引导可能干扰
- 特征方向提取依赖对比数据集
相关工作与启发¶
- vs ActAdd:<180° 旋转特例,系数调参困难
- vs 方向消融:90° 旋转特例,不能部分抑制
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 统一几何框架非常优雅
- 实验充分度: ⭐⭐⭐⭐ 多模型多尺寸
- 写作质量: ⭐⭐⭐⭐⭐ 极其清晰
- 价值: ⭐⭐⭐⭐⭐ 对 LLM 安全社区有重要影响