Fine-Grained Activation Steering: Steering Less, Achieving More¶
会议: ICLR 2026
arXiv: 2602.04428
代码: https://github.com/zijian678/AUSteer
领域: LLM NLP
关键词: 激活转向, 原子单元, 细粒度干预, 可解释性, 推理时对齐
一句话总结¶
AUSteer 发现块级激活转向(steering)本质上是异质的——不同维度控制不同 token 分布,混合转向既放大有益信号也放大有害信号。提出原子单元(AU)级细粒度转向:用激活动量定位判别性维度,自适应调节转向强度,仅转向 ≤100 个维度即大幅超越转向数千维度的 SOTA 方法。
研究背景与动机¶
- 领域现状:激活转向(activation steering)是低成本修改 LLM 行为的方法——提取转向向量在推理时注入到中间激活中。ITI、CAA、SADI 等方法在注意力头、FFN 或残差流的块级别操作。
- 现有痛点:
- 块级激活包含数百到数千维,混合了有益、无关和有害特征
- 块级转向不可避免地同时移动有用和有害的 token 方向——粗粒度、低效、过度侵入
- 单一维度的转向效果可能超过整个块的转向——说明块级操作是次优的
- 核心矛盾:块级转向把所有维度绑定在一起,但不同维度控制不同输出token的概率分布——这是根本性的异质性问题
- 切入角度:将权重矩阵的每一列定义为"原子单元"(AU),对应激活的单一维度。通过分解 \(\mathbf{y} = \mathbf{W}\mathbf{x} = \sum_i x_i \mathbf{W}_{:,i}\),将块级干预分解为 AU 级标量干预。
- 核心idea一句话:转向更少的维度反而效果更好——因为只转向有益 AU 避免了有害 AU 的副作用。
方法详解¶
整体框架¶
两步流程:(1) AU 定位——用激活动量在对比样本上全局评分所有 AU 的判别能力,选择 top-k 最判别性的 AU → (2) 自适应转向——对每个选中 AU,按其判别力分配不同强度,按输入样本的当前激活值自适应调整转向方向和幅度。
关键设计¶
- 异质性的理论解释:
- 不同 AU 控制不同的输出 token 分布。随着转向强度 \(s\) 增大,输出收敛到该 AU 的 token 分布。两个不同 AU 的 KL 散度随 \(s\) 增大而增大——证实它们驱动模型走向不同输出方向。
-
转向有益 AU(如 \(x_{84}\))提升正确 token "yes" 的概率;转向有害 AU(如 \(x_{44}\))提升不相关 token 的概率。
-
激活动量(Activation Momentum):
- 对每个 AU \(u_i\),在 \(N\) 对对比样本上计算 \(m_i^j = x_i^{j,pos} - x_i^{j,neg}\)
- 正动量比例 \(r_i^{pos}\) 和负动量比例 \(r_i^{neg}\) 量化该 AU 的判别一致性
-
判别分数 \(s_i = \max(r_i^{pos}, r_i^{neg})\)——基于计数的评分支持跨层全局比较,避免激活幅度随层深增大的问题
-
自适应转向:
- 输入自适应:\(\hat{x}_i = x_i + \gamma_i x_i\)——按当前激活值比例转向,而非加常数(保持方向、适配不同输入)
- AU 自适应:\(\gamma_i = \alpha \cdot r_i^{pos}\)(促进型)或 \(\gamma_i = -\alpha \cdot r_i^{neg}\)(抑制型)——判别力越强的 AU 转向越大
损失函数 / 训练策略¶
- 完全 training-free:无需梯度更新,仅在对比样本上统计激活动量
- 仅转向 \(k \leq 100\) 个维度(vs 块级方法的数千维度)
- 可应用于 MHA、FFN 和残差流的任意位置
实验关键数据¶
主实验(LLaMA2-7B-Chat,常识推理)¶
| 方法 | 转向维度数 | BoolQ↑ | COPA↑ | WinoGrande↑ |
|---|---|---|---|---|
| Baseline | 0 | 70.5 | - | - |
| ITI (块级) | 128 | 71.6 | - | - |
| SADI (块级) | 4224 | 73.7 | - | - |
| AUSteer | ≤100 | 76.0+ | 提升 | 提升 |
消融实验¶
| 配置 | 效果 |
|---|---|
| 单维度转向 \(x_{84}\) | 74.5%(超过块级 SADI 的 73.7%) |
| 4 个正向维度组合 | 76%+ |
| 混合正向+负向维度 | 性能下降(验证异质性) |
| 转向维度数 k 的影响 | k=50-100 最优,过多反而下降 |
关键发现¶
- 单个维度 > 整个块:第 84 维单独转向(74.5%)超过 128 维块级 ITI(71.6%)和 4224 维 SADI(73.7%)
- 100 维 > 4000 维:AUSteer 用 ≤100 个 AU 显著优于转向数千维的 SOTA
- 跨模型一致:在 LLaMA2-7B/13B、Mistral-7B 等多个模型上均有效
- 多任务通用:常识推理、数学问题求解、去毒化、人类偏好对齐均有效
- 激活动量跨层可比:基于计数的评分避免了层深导致的幅度偏差
亮点与洞察¶
- "Steering Less, Achieving More"是一个反直觉但深刻的发现:传统直觉是"干预越多控制越强",但在异质系统中,精确干预少数关键点远胜于粗粒度的全局干预。这个原则可推广到剪枝、知识编辑等领域。
- AU 的 token 分布解释为激活转向提供了清晰的理论基础——每个 AU 就像一个"微型专家",控制特定 token 类型的输出概率。这也暗示了 Transformer 内部的模块化结构。
- 完全 training-free + 仅需对比样本统计使得 AUSteer 极其轻量——比 SAE 方法(STA)通用得多(STA 需要特定模型的预训练 SAE)。
局限性 / 可改进方向¶
- 激活动量是基于对比样本的统计——样本质量和数量影响 AU 选择的可靠性
- 目前每个任务需要独立的 AU 定位——缺乏跨任务可迁移性
- 理论分析主要基于线性投影的分解——注意力机制的非线性交互未充分建模
- 未探索 AU 级转向与 LoRA/SFT 的结合
- 大模型(70B+)上的效果待验证
相关工作与启发¶
- vs ITI (Li et al.): ITI 在注意力头级别转向(128维);AUSteer 进一步分解到单维度,效果更好且干预更少
- vs SADI (Wang et al.): SADI 是块级 SOTA(4224维);AUSteer 用 ≤100 维度即超越
- vs STA (Wang et al.): STA 用 SAE 中的"原子"但仍在残差流块级注入;AUSteer 直接操作原始权重矩阵的列,不依赖 SAE
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ AU 分解 + 异质性分析 + 动量定位,完整的新范式
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多任务、消融、理论验证、人工评估全面
- 写作质量: ⭐⭐⭐⭐⭐ "Steering Less, Achieving More"的故事线极其清晰
- 价值: ⭐⭐⭐⭐⭐ 对激活转向领域的根本性贡献,简单实用可推广