跳转至

Fine-Grained Activation Steering: Steering Less, Achieving More

会议: ICLR 2026
arXiv: 2602.04428
代码: https://github.com/zijian678/AUSteer
领域: LLM NLP
关键词: 激活转向, 原子单元, 细粒度干预, 可解释性, 推理时对齐

一句话总结

AUSteer 发现块级激活转向(steering)本质上是异质的——不同维度控制不同 token 分布,混合转向既放大有益信号也放大有害信号。提出原子单元(AU)级细粒度转向:用激活动量定位判别性维度,自适应调节转向强度,仅转向 ≤100 个维度即大幅超越转向数千维度的 SOTA 方法。

研究背景与动机

  1. 领域现状:激活转向(activation steering)是低成本修改 LLM 行为的方法——提取转向向量在推理时注入到中间激活中。ITI、CAA、SADI 等方法在注意力头、FFN 或残差流的块级别操作。
  2. 现有痛点
  3. 块级激活包含数百到数千维,混合了有益、无关和有害特征
  4. 块级转向不可避免地同时移动有用和有害的 token 方向——粗粒度、低效、过度侵入
  5. 单一维度的转向效果可能超过整个块的转向——说明块级操作是次优的
  6. 核心矛盾:块级转向把所有维度绑定在一起,但不同维度控制不同输出token的概率分布——这是根本性的异质性问题
  7. 切入角度:将权重矩阵的每一列定义为"原子单元"(AU),对应激活的单一维度。通过分解 \(\mathbf{y} = \mathbf{W}\mathbf{x} = \sum_i x_i \mathbf{W}_{:,i}\),将块级干预分解为 AU 级标量干预。
  8. 核心idea一句话:转向更少的维度反而效果更好——因为只转向有益 AU 避免了有害 AU 的副作用。

方法详解

整体框架

两步流程:(1) AU 定位——用激活动量在对比样本上全局评分所有 AU 的判别能力,选择 top-k 最判别性的 AU → (2) 自适应转向——对每个选中 AU,按其判别力分配不同强度,按输入样本的当前激活值自适应调整转向方向和幅度。

关键设计

  1. 异质性的理论解释:
  2. 不同 AU 控制不同的输出 token 分布。随着转向强度 \(s\) 增大,输出收敛到该 AU 的 token 分布。两个不同 AU 的 KL 散度随 \(s\) 增大而增大——证实它们驱动模型走向不同输出方向。
  3. 转向有益 AU(如 \(x_{84}\))提升正确 token "yes" 的概率;转向有害 AU(如 \(x_{44}\))提升不相关 token 的概率。

  4. 激活动量(Activation Momentum):

  5. 对每个 AU \(u_i\),在 \(N\) 对对比样本上计算 \(m_i^j = x_i^{j,pos} - x_i^{j,neg}\)
  6. 正动量比例 \(r_i^{pos}\) 和负动量比例 \(r_i^{neg}\) 量化该 AU 的判别一致性
  7. 判别分数 \(s_i = \max(r_i^{pos}, r_i^{neg})\)——基于计数的评分支持跨层全局比较,避免激活幅度随层深增大的问题

  8. 自适应转向:

  9. 输入自适应:\(\hat{x}_i = x_i + \gamma_i x_i\)——按当前激活值比例转向,而非加常数(保持方向、适配不同输入)
  10. AU 自适应:\(\gamma_i = \alpha \cdot r_i^{pos}\)(促进型)或 \(\gamma_i = -\alpha \cdot r_i^{neg}\)(抑制型)——判别力越强的 AU 转向越大

损失函数 / 训练策略

  • 完全 training-free:无需梯度更新,仅在对比样本上统计激活动量
  • 仅转向 \(k \leq 100\) 个维度(vs 块级方法的数千维度)
  • 可应用于 MHA、FFN 和残差流的任意位置

实验关键数据

主实验(LLaMA2-7B-Chat,常识推理)

方法 转向维度数 BoolQ↑ COPA↑ WinoGrande↑
Baseline 0 70.5 - -
ITI (块级) 128 71.6 - -
SADI (块级) 4224 73.7 - -
AUSteer ≤100 76.0+ 提升 提升

消融实验

配置 效果
单维度转向 \(x_{84}\) 74.5%(超过块级 SADI 的 73.7%)
4 个正向维度组合 76%+
混合正向+负向维度 性能下降(验证异质性)
转向维度数 k 的影响 k=50-100 最优,过多反而下降

关键发现

  • 单个维度 > 整个块:第 84 维单独转向(74.5%)超过 128 维块级 ITI(71.6%)和 4224 维 SADI(73.7%)
  • 100 维 > 4000 维:AUSteer 用 ≤100 个 AU 显著优于转向数千维的 SOTA
  • 跨模型一致:在 LLaMA2-7B/13B、Mistral-7B 等多个模型上均有效
  • 多任务通用:常识推理、数学问题求解、去毒化、人类偏好对齐均有效
  • 激活动量跨层可比:基于计数的评分避免了层深导致的幅度偏差

亮点与洞察

  • "Steering Less, Achieving More"是一个反直觉但深刻的发现:传统直觉是"干预越多控制越强",但在异质系统中,精确干预少数关键点远胜于粗粒度的全局干预。这个原则可推广到剪枝、知识编辑等领域。
  • AU 的 token 分布解释为激活转向提供了清晰的理论基础——每个 AU 就像一个"微型专家",控制特定 token 类型的输出概率。这也暗示了 Transformer 内部的模块化结构。
  • 完全 training-free + 仅需对比样本统计使得 AUSteer 极其轻量——比 SAE 方法(STA)通用得多(STA 需要特定模型的预训练 SAE)。

局限性 / 可改进方向

  • 激活动量是基于对比样本的统计——样本质量和数量影响 AU 选择的可靠性
  • 目前每个任务需要独立的 AU 定位——缺乏跨任务可迁移性
  • 理论分析主要基于线性投影的分解——注意力机制的非线性交互未充分建模
  • 未探索 AU 级转向与 LoRA/SFT 的结合
  • 大模型(70B+)上的效果待验证

相关工作与启发

  • vs ITI (Li et al.): ITI 在注意力头级别转向(128维);AUSteer 进一步分解到单维度,效果更好且干预更少
  • vs SADI (Wang et al.): SADI 是块级 SOTA(4224维);AUSteer 用 ≤100 维度即超越
  • vs STA (Wang et al.): STA 用 SAE 中的"原子"但仍在残差流块级注入;AUSteer 直接操作原始权重矩阵的列,不依赖 SAE

评分

  • 新颖性: ⭐⭐⭐⭐⭐ AU 分解 + 异质性分析 + 动量定位,完整的新范式
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多任务、消融、理论验证、人工评估全面
  • 写作质量: ⭐⭐⭐⭐⭐ "Steering Less, Achieving More"的故事线极其清晰
  • 价值: ⭐⭐⭐⭐⭐ 对激活转向领域的根本性贡献,简单实用可推广