跳转至

Angular Steering: Behavior Control via Rotation in Activation Space

会议: NeurIPS 2025
arXiv: 2510.26243
代码: https://github.com/lone17/angular-steering/
领域: LLM可控性 / 可解释性
关键词: 激活引导, 行为控制, 旋转变换, 拒绝引导, RMSNorm

一句话总结

提出 Angular Steering,将 LLM 激活引导统一建模为固定 2D 子空间中的旋转操作,提供连续、细粒度、范数保持的行为控制,统一了现有的激活加法和方向消融方法,在多个 LLM 家族(3B-14B)上实现鲁棒的行为控制。

研究背景与动机

  1. 领域现状:激活引导通过在推理时修改 LLM 内部表示来控制行为,主要有激活加法和方向消融两种方法。

  2. 现有痛点:激活加法系数调参困难,方向消融只能完全移除特征。两者都受限于 2D 子空间但未充分利用其几何结构。

  3. 切入角度:现代 LLM 的 RMSNorm 使方向成为核心表示单元,旋转是范数保持的自然操作。

  4. 核心idea:将激活引导重新建模为 2D 子空间中的旋转,角度提供连续可解释的控制旋钮。

方法详解

整体框架

在归一化层后,将激活向量在 Span{\(\bm{h}\), \(\bm{d}_{\text{feat}}\)} 2D 平面上旋转指定角度。\(\theta = 0\) 保持原始,\(90°\) 等价方向消融,\(> 90°\) 可翻转行为。

关键设计

  1. Angular Steering:固定 2D 子空间旋转,0-360° 全范围控制,范数保持
  2. 取归一化后激活 \(\hat{\bm{h}}\),计算其与特征方向 \(\hat{\bm{d}}_{\text{feat}}\) 的当前角度后旋转到目标角度
  3. RMSNorm 先映射到 \(\sqrt{d_{\text{model}}}\)-缩放的单位球面,任何之前的修改都被视为范数保持的
  4. Adaptive Angular Steering:只对与目标特征对齐的激活施加旋转,对无关激活保持不变
  5. 设计动机:减少对无关特征的干扰,提高生成连贯性
  6. 统一视角:激活加法 = <180° 旋转(且系数敏感),方向消融 = 90° 旋转(不可部分抑制)

特征方向提取

  • 使用对比数据集(AdvBench 416 有害指令 vs Alpaca 512 无害样本)
  • 记录每层归一化后的激活,计算均值差作为局部特征方向
  • 每个 Transformer 块有两个提取点(Attention前 + MLP前)
  • 实验验证特征方向有效分离对比样本:有害/无害数据在特征方向上的投影方向粻然相反

实验关键数据

主实验

在 Llama 3、Qwen 2.5、Gemma 2 家族(3B-14B)上评估。角度 20° 拒绝、100° 间接回应、200° 直接顺从、300° 重定向。Angular Steering 在更大角度范围内保持语言建模性能。

配置 TinyBenchmarks 行为控制
无引导 基线
激活加法 不稳定 可控但范围有限
方向消融 较好 仅完全移除
Angular 稳定 连续可控
Adaptive Angular 最佳 连续+高连贯

亮点与洞察

  • 几何视角统一现有方法,思路优雅
  • 方向 > 幅度的洞察利用 RMSNorm 几何性质

局限性 / 可改进方向

  • 仅验证拒绝/情感引导,多特征同时引导可能干扰
  • 特征方向提取依赖对比数据集

相关工作与启发

  • vs ActAdd:<180° 旋转特例,系数调参困难
  • vs 方向消融:90° 旋转特例,不能部分抑制

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 统一几何框架非常优雅
  • 实验充分度: ⭐⭐⭐⭐ 多模型多尺寸
  • 写作质量: ⭐⭐⭐⭐⭐ 极其清晰
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 安全社区有重要影响