As Language Models Scale, Low-order Linear Depth Dynamics Emerge¶

会议: CVPR 2026
arXiv: 2603.12541
代码: 待确认
领域: LLM 可解释性 / 控制理论
关键词: Transformer 深度动力学、线性代理模型、模型缩放规律、激活干预、系统辨识

一句话总结¶

将 Transformer 的逐层前向传播视为离散时间动力系统，发现 32 维低阶线性代理（LLV）可精确复现完整模型的层级灵敏度曲线，且该线性可辨识性随模型规模单调增强。

现有激活引导（activation steering）方法依赖启发式逐层扫描或固定注入策略来选择干预层，缺乏对 Transformer 深度方向表示传播的系统级理解。一个自然的问题是：Transformer 的深度方向动力学是否存在紧凑的数学描述，可以指导干预设计？

给定某个特定 prompt 上下文，Transformer 各层对最后 token 表示的变换能否用低维线性状态空间模型近似？这种近似质量是否随模型规模系统性变化？

将深度视为离散时间，最后 token 隐状态为系统状态，在给定 prompt 的冻结上下文下对每层变换做局部 Jacobian 线性化，利用 Krylov 子空间构造降维基，投影得到低阶线性层变体（LLV）模型。该代理可预测逐层增益曲线并推导最优多层干预方案。

冻结上下文局部动力学: 固定非最后 token 的表示，仅变化最后 token 状态，定义 prompt 条件映射，对其做 Jacobian 线性化得到逐层状态转移矩阵
概念锚定 Krylov 基: 降维基的第一列为概念方向（正负类均值差），其余由可达性启发的 Krylov 构造填充，保证覆盖干预实际激发的子空间
最小能量多层控制: 降维模型中输出偏移对控制向量线性，最小范数解可闭式求解，再在完整模型中验证

无需训练——纯分析方法。概念方向由标注 prompt 的类条件均值差估计；Jacobian 通过 JVP 或中心差分近似；降维模型在 operating split 上辨识，增益在 held-out split 评估。