跳转至

📚 AI Paper Notes

Angular Steering: Behavior Control via Rotation in Activation Space

Angular Steering: Behavior Control via Rotation in Activation Space¶

会议: NeurIPS 2025
arXiv: 2510.26243
代码: https://github.com/lone17/angular-steering/
领域: LLM可控性 / 可解释性
关键词: 激活引导, 行为控制, 旋转变换, 拒绝引导, RMSNorm

一句话总结¶

提出 Angular Steering，将 LLM 激活引导统一建模为固定 2D 子空间中的旋转操作，提供连续、细粒度、范数保持的行为控制，统一了现有的激活加法和方向消融方法，在多个 LLM 家族（3B-14B）上实现鲁棒的行为控制。

研究背景与动机¶

领域现状：激活引导通过在推理时修改 LLM 内部表示来控制行为，主要有激活加法和方向消融两种方法。
现有痛点：激活加法系数调参困难，方向消融只能完全移除特征。两者都受限于 2D 子空间但未充分利用其几何结构。
切入角度：现代 LLM 的 RMSNorm 使方向成为核心表示单元，旋转是范数保持的自然操作。
核心idea：将激活引导重新建模为 2D 子空间中的旋转，角度提供连续可解释的控制旋钮。

方法详解¶

整体框架¶

在归一化层后，将激活向量在 Span{\(\bm{h}\), \(\bm{d}_{\text{feat}}\)} 2D 平面上旋转指定角度。\(\theta = 0\) 保持原始，\(90°\) 等价方向消融，\(> 90°\) 可翻转行为。

关键设计¶

Angular Steering：固定 2D 子空间旋转，0-360° 全范围控制，范数保持
取归一化后激活 \(\hat{\bm{h}}\)，计算其与特征方向 \(\hat{\bm{d}}_{\text{feat}}\) 的当前角度后旋转到目标角度
RMSNorm 先映射到 \(\sqrt{d_{\text{model}}}\)-缩放的单位球面，任何之前的修改都被视为范数保持的
Adaptive Angular Steering：只对与目标特征对齐的激活施加旋转，对无关激活保持不变
设计动机：减少对无关特征的干扰，提高生成连贯性
统一视角：激活加法 = <180° 旋转（且系数敏感），方向消融 = 90° 旋转（不可部分抑制）

特征方向提取¶

使用对比数据集（AdvBench 416 有害指令 vs Alpaca 512 无害样本）
记录每层归一化后的激活，计算均值差作为局部特征方向
每个 Transformer 块有两个提取点（Attention前 + MLP前）
实验验证特征方向有效分离对比样本：有害/无害数据在特征方向上的投影方向粻然相反

实验关键数据¶

主实验¶

在 Llama 3、Qwen 2.5、Gemma 2 家族（3B-14B）上评估。角度 20° 拒绝、100° 间接回应、200° 直接顺从、300° 重定向。Angular Steering 在更大角度范围内保持语言建模性能。

配置	TinyBenchmarks	行为控制
无引导	基线	无
激活加法	不稳定	可控但范围有限
方向消融	较好	仅完全移除
Angular	稳定	连续可控
Adaptive Angular	最佳	连续+高连贯

亮点与洞察¶

几何视角统一现有方法，思路优雅
方向 > 幅度的洞察利用 RMSNorm 几何性质

局限性 / 可改进方向¶

仅验证拒绝/情感引导，多特征同时引导可能干扰
特征方向提取依赖对比数据集

相关工作与启发¶

vs ActAdd：<180° 旋转特例，系数调参困难
vs 方向消融：90° 旋转特例，不能部分抑制

评分¶

新颖性: ⭐⭐⭐⭐⭐ 统一几何框架非常优雅
实验充分度: ⭐⭐⭐⭐ 多模型多尺寸
写作质量: ⭐⭐⭐⭐⭐ 极其清晰
价值: ⭐⭐⭐⭐⭐ 对 LLM 安全社区有重要影响