As Language Models Scale, Low-order Linear Depth Dynamics Emerge¶

会议: CVPR 2026
arXiv: 2603.12541
代码: 无
领域: NLP理解 / LLM可解释性 / 表征分析
关键词: 激活干预, 局部线性化, 深度动力学, 系统辨识, 模型缩放

一句话总结¶

这篇论文把 Transformer 的层深看成离散时间系统，证明在给定上下文附近可以用一个 32 维的低阶线性状态空间代理去近似 GPT-2 的层间传播与干预响应，而且模型越大，这个低阶代理越准确，还能据此算出比启发式注入更省能量的多层干预策略。

研究背景与动机¶

现有的大模型分析方法有一个明显断层：一类工作关注表示里是否存在可线性分离的“概念方向”，另一类工作关注 activation steering 是否有效，但很少有人去建模“一个概念方向在不同层被注入以后，到底如何沿深度传播并最终影响输出”。

更具体地说，大家已经知道在残差流里加一个方向向量可以改变情感、毒性、仇恨言论等属性，但通常做法仍然很经验主义：

逐层扫一遍，看看哪层最好。
拍脑袋选择最后一层、所有层平均注入或某个中间层。
对为什么这些层有效、为什么多层分配会更省“干预能量”，缺少统一解释。

论文认为真正缺的是一个“局部、可预测、可控制”的深度动力学视角。作者把因果 Transformer 的层深当作离散时间，把最后一个非 padding token 的隐藏状态看作系统状态，然后问一个很系统控制的问题：

如果在第 \(k\) 层往残差流里加一个小扰动，它经过后续所有 block 之后，会怎样影响最终的概念读出？

这个问题之所以重要，有三层原因：

机制理解：如果不能描述扰动如何沿深度传播，就只能停留在“某个方向有用”的静态表征层面。

干预设计：如果能预测每层的增益曲线，就不需要 brute-force layer sweep。

缩放规律：模型越来越大通常意味着更复杂，但作者怀疑更大模型在局部反而更“规整”，因此可能更适合被低维动力学代理压缩。

作者的核心观察很有意思：虽然 LLM 全局上是高维非线性系统，但在固定 prompt 附近、只看最后 token 的局部层间传播时，它未必需要一个同样高维的复杂模型来解释。换句话说，真正决定 steering 响应的那部分动力学，也许只活跃在一个很小的可达子空间里。

本文因此要回答三个连贯的问题：

能不能为给定上下文辨识出一个低阶线性 layer-variant surrogate？
这个 surrogate 能不能准确预测不同层的 steering sensitivity 曲线？
这种可辨识性会不会随着模型规模上升而系统性增强？

作者的回答是肯定的，而且第三点是全文最有价值的结论：模型变大以后，局部低阶线性代理不仅没有失效，反而变得更准。

方法详解¶

这篇文章的方法主线非常清楚，本质上是把 activation steering 重新表述成一个局部系统辨识与最优控制问题。

整体框架¶

完整流程可以概括为五步：

对给定 prompt 跑一次原模型，拿到沿深度的最后 token 隐状态轨迹 \(x_\ell(p)\)。
固定 prompt 中其它 token 的隐藏状态，只允许最后 token 在下一层 block 前被小幅变化，从而得到一个 prompt-conditioned 的 frozen-context 映射 \(x_{\ell+1}=f_\ell(x_\ell;p)\)。
在这条运行轨迹附近对 \(f_\ell\) 做局部线性化，得到每层 Jacobian \(A_\ell(p)\)。
结合概念方向 \(v_\ell\) 与 Krylov 风格的可达子空间构造一个低维基底 \(P_\ell\)，把高维动力学投影成低阶线性层变模型 LLV。
用这个 LLV 代理去预测单层注入的增益曲线，并进一步求出满足目标输出变化时最省能量的多层注入策略。

这套方法不是去拟合模型的全部行为，而是只拟合一个很局部但很关键的对象：在当前上下文下，最后 token 受到小扰动以后，后续深度传播会怎样改变最终概念读出。

关键设计¶

把深度当作时间，把最后 token 当作系统状态
- 功能：定义 \(x_\ell(p)=h_\ell(p)[t(p),:]\)，其中 \(t(p)\) 是最后一个非 padding token 的位置。
- 核心思路：作者不试图建模整段序列的全部隐状态，而是聚焦最直接影响最终 readout 的最后 token 表征，把 Transformer block 序列看作时间推进。
- 设计动机：如果目标是理解 activation steering 对最终输出的作用，那么最后 token 是最贴近决策端的状态；这样既把问题压缩了，也让“层深传播”可以直接用状态空间语言来描述。
冻结上下文，只建模局部 last-token 响应
- 功能：对某个固定 prompt，保持非最后 token 的隐藏状态不变，只扰动最后 token，然后看下一层 block 如何映射它。
- 核心思路：这样得到的是条件在 prompt 上下文之下的映射 \(x_{\ell+1}=f_\ell(x_\ell;p)\)，它把跨 token 复杂交互吸收到“冻结上下文”里，保留 steering 最相关的局部动力学。
- 设计动机：如果不冻结上下文，整个系统状态会大到难以辨识；冻结上下文后，问题从“全局解释 Transformer”变成“局部解释当前语境下的深度传播”，难度立刻可控。
沿概念方向建模外部驱动项
- 功能：在每一层估计概念方向 \(v_\ell\)，主实验只考虑沿这个方向的加性注入 \(u_\ell v_\ell\)。
- 核心思路：概念方向由独立 concept split 上的类别均值差归一化得到，因此 steering 的“输入端”也是数据驱动地定义出来的。
- 设计动机：很多 activation steering 工作默认方向存在，但不建模它如何传播。这里作者把方向估计和动力学传播合在一起，使输入、状态、输出三者在同一框架中闭环。
构造 concept-anchored 的低维基底 \(P_\ell\)
- 功能：每层的降维基底第一列固定为概念方向 \(v_\ell\)，其余列由 reachability-informed Krylov complement 构造。
- 核心思路：这不是随便做 PCA，也不是纯随机补空间，而是从平均 Jacobian 作用下真实会被 steering 激发的方向出发，递推地构建一组更“可达”的基。
- 设计动机：如果低维基底没有覆盖真正会被控制输入激发的子空间，再小的 surrogate 都会丢掉关键传播模式。作者用 Krylov 风格补空间，就是为了把有限维度预算优先花在“被 steering 用得到”的方向上。
得到层变线性代理 LLV
- 功能：投影后得到 \(r_{\ell+1}\approx \bar{A}_\ell(p) r_\ell + \bar{B}_\ell(p) u_\ell\)，其中 \(r_\ell=P_\ell^\top \delta x_\ell\)。
- 核心思路：原模型虽然非线性，但在运行轨迹附近的响应可被一组随层变化的线性矩阵近似；这比单个全局线性模型更贴合 Transformer 每层功能不同的事实。
- 设计动机：作者不是宣称“Transformer 本质上线性”，而是强调“局部线性、且随层变化”的近似足够准确。这种表述更克制，也更符合实际网络结构。
用 predicted gain 连接分析与控制
- 功能：对单层第 \(k\) 层注入，最终概念增益预测为 \(g_k^{pred}\approx C\Phi(k+1,L)\bar{B}_k\)。
- 核心思路：一旦有了 reduced transition product \(\Phi\)，每层的灵敏度就不需要靠逐层实测了，而能直接从代理模型里推出。
- 设计动机：这一步把“解释模型”变成“可操作模型”。它不是事后解释哪层好，而是先预测哪层好。

损失函数 / 训练策略¶

严格说这篇工作不是训练一个新模型，而是在 frozen pretrained GPT-2 家族上做局部辨识，因此没有传统意义上的训练损失。它的“学习”过程主要体现在三个地方：

概念方向估计：用 concept split 计算每层两类样本最后 token 表征的均值差，并归一化为 \(v_\ell\)。
局部 Jacobian 估计：优先使用 JVP 计算局部雅可比作用，必要时退回 central finite difference。
低维系统辨识：在降维基底上得到 \(\bar{A}_\ell(p)\) 和 \(\bar{B}_\ell(p)\)，主实验固定 reduced order 为 \(d=32\)。

一些关键实验设置值得记录：

GPT-2-large 主结果中 concept batch size 为 32，held-out batch size 为 64。
operating split 用于局部动力学辨识，evaluation split 仅用于评估增益和控制效果，二者严格分离。
Krylov complement 大小为 31，对应总 reduced dimension 为 32。
主图的 gain evaluation magnitude 主要使用 \(\epsilon=0.1\)，并在更宽范围内检查鲁棒性。

为什么这个方法成立¶

我觉得这篇论文最强的地方，不是提出了一个复杂算法，而是把问题拆得非常合理。

首先，作者只关心局部响应，而不是妄图解释 LLM 全部计算过程，因此线性化是有正当性的。

其次，作者不是随便降维，而是围绕概念方向和可达子空间降维，所以 reduced model 对 steering 特别敏感的那部分动力学保留得更好。

最后，论文把 surrogate 的价值放在两个可验证目标上：

能否预测整条 layerwise gain 曲线。
能否导出更优的 multi-layer actuation schedule。

也就是说，它不是用一个抽象的“线性化解释”自说自话，而是要求这个解释必须能回到原始非线性 Transformer 上被实证验证。

实验关键数据¶

论文在 10 个二分类 NLP 任务上评估，包括 Amazon Polarity、Yelp Polarity、SST-2、IMDB、BoolQ、二分类版 MNLI、Civil Comments Toxicity、TweetEval-Irony、TweetEval-Hate、TweetEval-Offensive。

主结果聚焦 GPT-2-large，同时在 GPT-2、GPT-2-medium、GPT-2-large 三个尺度上研究缩放规律。

主实验¶

作者最重要的量化结果不是传统分类精度，而是 predicted gain curve 与 full model empirical gain curve 的一致性，以及最优控制相对启发式策略的能量效率。

设置	指标	本文结果	对比/基线	结论
GPT-2-large, \(d=32\)	层间增益预测 Spearman	各展示数据集达到 0.99 或 1.00	经验逐层扫描	低阶 LLV 几乎完整复现整条 gain 曲线
GPT-2-large, \(d=32\)	层间增益曲线形状	与 empirical 曲线近乎重合	只找 best layer 的粗糙分析	surrogate 预测的不只是最优层，而是完整响应形状
GPT-2 family 缩放	平均 Spearman	GPT-2: 约 0.77, GPT-2-medium: 约 0.81, GPT-2-large: 0.995	固定同样 reduced order=32	模型越大，低阶线性代理越可辨识
GPT-2 family 缩放	平均 Pearson	GPT-2: 约 0.68, GPT-2-medium: 约 0.74, GPT-2-large: 0.997	同上	可辨识性提升不只是排序一致，更是数值幅度一致
GPT-2-large 控制	达到同样目标概念偏移所需能量	LLV-optimal 最低或并列最低	uniform-all, last-layer-only, middle-only, early-only, random-layer	线性代理导出的控制分配显著优于启发式策略

消融实验¶

论文虽然不是典型模块堆叠式方法，但仍有几组关键分析可以视作“消融”：

配置	关键指标变化	说明
Full LLV, \(d=32\), Krylov complement	最佳	主设定，预测曲线与实测高度一致
减小 reduced dimension	一致性下降后逐步饱和	说明 steering 相关动力学确实是低维的，但维度太小会欠拟合
随机 complement 替代 Krylov complement	预测更差	说明“可达性引导”的补空间比随机构造更贴合真实传播子空间
改变 \(\epsilon\)	在较宽区间仍稳定	说明 empirical finite difference 不依赖某个精细调参点
heuristic multi-layer / single-layer injection	能量明显更高	证明 surrogate 不只是解释器，也能指导控制设计

关键发现¶

最佳干预层并不固定：不同任务的 gain 曲线形状明显不同，有的后层单调升高，有的是中后层平台区，因此“总在最后一层注入”并不可靠。
真正被拟合的是整条响应曲线：论文反复强调 surrogate 的价值不是识别一个 top-1 layer，而是准确刻画从早层到晚层的完整敏感性结构。
缩放规律非常反直觉：通常大家觉得模型更大更难解释，但这里恰恰是更大模型更容易被低阶局部线性系统解释。
控制收益可观：相比 uniform-all，LLV-optimal 往往还能再省大约 2 到 5 倍能量；相比 last-layer-only，经常能好一个数量级，甚至多个数量级。

亮点与洞察¶

这篇论文把 activation steering 从“经验技巧”提升成了“局部系统控制问题”。这一步的价值在于，它把方向、传播、干预分配放进了统一数学框架里。
“大模型更容易被低阶局部代理解释”这个结论很有冲击力。它暗示 scale 带来的不只是能力上升，也可能带来局部动力学的规整化和可压缩性增强。
concept-anchored Krylov basis 是很巧的设计。第一列强行对齐概念方向，剩余维度再围绕可达性展开，兼顾了语义相关性与动力学保真度。
论文非常重视 operating split 与 evaluation split 分离。这避免了用同一批 prompt 同时辨识和验证，从而使“预测有效”这个结论更可信。
这项工作提供了一个很好的中层抽象：它既不像纯 probing 那样静态，也不像端到端控制那样黑盒，而是抓住了“局部传播结构”这个可计算的中间层。

局限与展望¶

局部性很强：作者自己也承认，这不是一个全局替代 Transformer 的线性模型，只在 prompt-conditioned operating trajectory 附近有效。离开这个局部邻域，近似能否保持还不清楚。
只看最后 token：这种状态定义对 next-token readout 很自然，但对于需要全序列交互、跨 token aggregation 的机制分析可能不够。
只验证 GPT-2 家族：缩放规律目前只在 GPT-2、GPT-2-medium、GPT-2-large 上成立，尚未验证到现代 decoder-only LLM、MoE 或多模态模型。
任务仍以二分类概念为主：概念方向来源于二分类均值差，这对 sentiment/toxicity/hate 等任务合适，但对开放生成、多标签语义或复杂推理未必直接适用。
控制目标较单一：当前控制目标是最终 concept score 的目标偏移，尚未覆盖更复杂的 sequence-level behavior constraints。
线性读出假设仍然隐含较强：如果某些语义概念本身就不是稳定的线性方向，那么整个 surrogate 的输入与输出定义都会受影响。

我自己的可改进想法有两条：

可以把这个框架迁移到更现代的开源模型上，检验“scale 提高局部可辨识性”是否是 GPT-2 专属现象，还是更普遍的训练后动力学规律。
可以把单一概念方向扩展成多输入控制，把 \(V_\ell\) 从一个向量变成一个小型控制子空间，用来分析多属性联合 steering 的耦合关系。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 论文把 activation steering、局部线性化、降阶系统辨识和缩放规律串成一个统一故事，观点新且完整。
实验充分度: ⭐⭐⭐⭐ 10 个任务、三个 GPT-2 尺度、增益预测与控制两个维度都做了，但模型家族仍偏窄。
写作质量: ⭐⭐⭐⭐⭐ 叙事非常清晰，问题定义、方法结构、核心结论三者衔接紧密。
价值: ⭐⭐⭐⭐⭐ 这篇工作不仅解释为什么某些层更适合干预，还给出可操作的控制策略，对后续可解释 steering 研究很有启发。