As Language Models Scale, Low-order Linear Depth Dynamics Emerge¶
会议: CVPR 2026
arXiv: 2603.12541
代码: 待确认
领域: LLM 可解释性 / 控制理论
关键词: Transformer 深度动力学、线性代理模型、模型缩放规律、激活干预、系统辨识
一句话总结¶
将 Transformer 的逐层前向传播视为离散时间动力系统,发现 32 维低阶线性代理(LLV)可精确复现完整模型的层级灵敏度曲线,且该线性可辨识性随模型规模单调增强。
背景与动机¶
现有激活引导(activation steering)方法依赖启发式逐层扫描或固定注入策略来选择干预层,缺乏对 Transformer 深度方向表示传播的系统级理解。一个自然的问题是:Transformer 的深度方向动力学是否存在紧凑的数学描述,可以指导干预设计?
核心问题¶
给定某个特定 prompt 上下文,Transformer 各层对最后 token 表示的变换能否用低维线性状态空间模型近似?这种近似质量是否随模型规模系统性变化?
方法详解¶
整体框架¶
将深度视为离散时间,最后 token 隐状态为系统状态,在给定 prompt 的冻结上下文下对每层变换做局部 Jacobian 线性化,利用 Krylov 子空间构造降维基,投影得到低阶线性层变体(LLV)模型。该代理可预测逐层增益曲线并推导最优多层干预方案。
关键设计¶
- 冻结上下文局部动力学: 固定非最后 token 的表示,仅变化最后 token 状态,定义 prompt 条件映射,对其做 Jacobian 线性化得到逐层状态转移矩阵
- 概念锚定 Krylov 基: 降维基的第一列为概念方向(正负类均值差),其余由可达性启发的 Krylov 构造填充,保证覆盖干预实际激发的子空间
- 最小能量多层控制: 降维模型中输出偏移对控制向量线性,最小范数解可闭式求解,再在完整模型中验证
损失函数 / 训练策略¶
无需训练——纯分析方法。概念方向由标注 prompt 的类条件均值差估计;Jacobian 通过 JVP 或中心差分近似;降维模型在 operating split 上辨识,增益在 held-out split 评估。
实验关键数据¶
| 模型 | Spearman | Pearson |
|---|---|---|
| GPT-2 (d=32) | 0.77 | 0.68 |
| GPT-2-medium (d=32) | 0.81 | 0.74 |
| GPT-2-large (d=32) | 0.995 | 0.997 |
- LLV 最优多层控制的能量比 uniform-all 低 2-5 倍,比 single-layer 低 1-2 个数量级
- 10 个 NLP 任务(毒性、讽刺、仇恨、情感等),GPT-2-large 的 Spearman 均达 0.99-1.00
消融实验要点¶
- 降维维度从极小值增大时一致性快速提升后饱和,干预动力学确实紧凑
- Krylov 基系统性优于随机正交基,尤其在困难任务上
- 扰动幅度在宽范围内一致性稳定,线性化处于合理局部区间
亮点¶
- 「模型越大,局部深度动力学越线性」的缩放规律反直觉但实证强劲
- 把干预设计从启发式层扫描提升为有解析解的最优控制问题
- 分析-设计-验证的闭环工作流范式值得借鉴
局限性 / 可改进方向¶
- 仅在 GPT-2 家族(最大 774M)上验证,需扩展到 LLaMA/Mistral 等更大模型
- 代理模型是 prompt 条件的局部描述,不同 prompt 需重新辨识
- 概念方向仅用均值差估计,对复杂概念可能不足
- 未讨论多概念同时干预场景
与相关工作的对比¶
- vs Activation Addition (Turner et al.): 后者只提供干预方向,本文进一步预测哪层最有效及如何分配能量
- vs 线性表示假说 (Park et al.): 后者解释概念为何可线性编码(静态),本文研究扰动如何跨层传播(动力学)
- vs Golden (2025) 等价线性映射: 本文用降维代理换来增益预测和控制设计能力
启发与关联¶
- 对层级剪枝的理论指导:深度动力学低秩意味着可能存在可安全跳过的冗余层
- 对表示工程和安全对齐有实际价值:最优多层干预比单层注入效率高一个数量级
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 控制论视角的 Transformer 分析非常新颖,缩放规律发现令人惊讶
- 实验充分度: ⭐⭐⭐⭐ 10 任务 x 3 模型规模 x 多消融维度,但仅限 GPT-2 家族
- 写作质量: ⭐⭐⭐⭐⭐ 叙事清晰,图表精美,理论与实验衔接紧密
- 价值: ⭐⭐⭐⭐ 为激活引导提供理论基础,但大模型验证缺失限制即时影响