Fine-Grained Activation Steering: Steering Less, Achieving More¶

会议: ICLR 2026
arXiv: 2602.04428
代码: https://github.com/zijian678/AUSteer
领域: LLM NLP
关键词: 激活转向, 原子单元, 细粒度干预, 可解释性, 推理时对齐

一句话总结¶

AUSteer 发现块级激活转向（steering）本质上是异质的——不同维度控制不同 token 分布，混合转向既放大有益信号也放大有害信号。提出原子单元（AU）级细粒度转向：用激活动量定位判别性维度，自适应调节转向强度，仅转向 ≤100 个维度即大幅超越转向数千维度的 SOTA 方法。

领域现状：激活转向（activation steering）是低成本修改 LLM 行为的方法——提取转向向量在推理时注入到中间激活中。ITI、CAA、SADI 等方法在注意力头、FFN 或残差流的块级别操作。
现有痛点：
块级激活包含数百到数千维，混合了有益、无关和有害特征
块级转向不可避免地同时移动有用和有害的 token 方向——粗粒度、低效、过度侵入
单一维度的转向效果可能超过整个块的转向——说明块级操作是次优的
核心矛盾：块级转向把所有维度绑定在一起，但不同维度控制不同输出token的概率分布——这是根本性的异质性问题
切入角度：将权重矩阵的每一列定义为"原子单元"（AU），对应激活的单一维度。通过分解 \(\mathbf{y} = \mathbf{W}\mathbf{x} = \sum_i x_i \mathbf{W}_{:,i}\)，将块级干预分解为 AU 级标量干预。
核心idea一句话：转向更少的维度反而效果更好——因为只转向有益 AU 避免了有害 AU 的副作用。

两步流程：(1) AU 定位——用激活动量在对比样本上全局评分所有 AU 的判别能力，选择 top-k 最判别性的 AU → (2) 自适应转向——对每个选中 AU，按其判别力分配不同强度，按输入样本的当前激活值自适应调整转向方向和幅度。

异质性的理论解释:
不同 AU 控制不同的输出 token 分布。随着转向强度 \(s\) 增大，输出收敛到该 AU 的 token 分布。两个不同 AU 的 KL 散度随 \(s\) 增大而增大——证实它们驱动模型走向不同输出方向。
转向有益 AU（如 \(x_{84}\)）提升正确 token "yes" 的概率；转向有害 AU（如 \(x_{44}\)）提升不相关 token 的概率。
激活动量（Activation Momentum）:
对每个 AU \(u_i\)，在 \(N\) 对对比样本上计算 \(m_i^j = x_i^{j,pos} - x_i^{j,neg}\)
正动量比例 \(r_i^{pos}\) 和负动量比例 \(r_i^{neg}\) 量化该 AU 的判别一致性
判别分数 \(s_i = \max(r_i^{pos}, r_i^{neg})\)——基于计数的评分支持跨层全局比较，避免激活幅度随层深增大的问题
自适应转向:
输入自适应：\(\hat{x}_i = x_i + \gamma_i x_i\)——按当前激活值比例转向，而非加常数（保持方向、适配不同输入）
AU 自适应：\(\gamma_i = \alpha \cdot r_i^{pos}\)（促进型）或 \(\gamma_i = -\alpha \cdot r_i^{neg}\)（抑制型）——判别力越强的 AU 转向越大

方法	转向维度数	BoolQ↑	COPA↑	WinoGrande↑
Baseline	0	70.5	-	-
ITI (块级)	128	71.6	-	-
SADI (块级)	4224	73.7	-	-
AUSteer	≤100	76.0+	提升	提升

"Steering Less, Achieving More"是一个反直觉但深刻的发现：传统直觉是"干预越多控制越强"，但在异质系统中，精确干预少数关键点远胜于粗粒度的全局干预。这个原则可推广到剪枝、知识编辑等领域。
AU 的 token 分布解释为激活转向提供了清晰的理论基础——每个 AU 就像一个"微型专家"，控制特定 token 类型的输出概率。这也暗示了 Transformer 内部的模块化结构。
完全 training-free + 仅需对比样本统计使得 AUSteer 极其轻量——比 SAE 方法（STA）通用得多（STA 需要特定模型的预训练 SAE）。