跳转至

As Language Models Scale, Low-order Linear Depth Dynamics Emerge

会议: CVPR 2026
arXiv: 2603.12541
代码: 待确认
领域: LLM 可解释性 / 控制理论
关键词: Transformer 深度动力学、线性代理模型、模型缩放规律、激活干预、系统辨识

一句话总结

将 Transformer 的逐层前向传播视为离散时间动力系统,发现 32 维低阶线性代理(LLV)可精确复现完整模型的层级灵敏度曲线,且该线性可辨识性随模型规模单调增强。

背景与动机

现有激活引导(activation steering)方法依赖启发式逐层扫描或固定注入策略来选择干预层,缺乏对 Transformer 深度方向表示传播的系统级理解。一个自然的问题是:Transformer 的深度方向动力学是否存在紧凑的数学描述,可以指导干预设计?

核心问题

给定某个特定 prompt 上下文,Transformer 各层对最后 token 表示的变换能否用低维线性状态空间模型近似?这种近似质量是否随模型规模系统性变化?

方法详解

整体框架

将深度视为离散时间,最后 token 隐状态为系统状态,在给定 prompt 的冻结上下文下对每层变换做局部 Jacobian 线性化,利用 Krylov 子空间构造降维基,投影得到低阶线性层变体(LLV)模型。该代理可预测逐层增益曲线并推导最优多层干预方案。

关键设计

  1. 冻结上下文局部动力学: 固定非最后 token 的表示,仅变化最后 token 状态,定义 prompt 条件映射,对其做 Jacobian 线性化得到逐层状态转移矩阵
  2. 概念锚定 Krylov 基: 降维基的第一列为概念方向(正负类均值差),其余由可达性启发的 Krylov 构造填充,保证覆盖干预实际激发的子空间
  3. 最小能量多层控制: 降维模型中输出偏移对控制向量线性,最小范数解可闭式求解,再在完整模型中验证

损失函数 / 训练策略

无需训练——纯分析方法。概念方向由标注 prompt 的类条件均值差估计;Jacobian 通过 JVP 或中心差分近似;降维模型在 operating split 上辨识,增益在 held-out split 评估。

实验关键数据

模型 Spearman Pearson
GPT-2 (d=32) 0.77 0.68
GPT-2-medium (d=32) 0.81 0.74
GPT-2-large (d=32) 0.995 0.997
  • LLV 最优多层控制的能量比 uniform-all 低 2-5 倍,比 single-layer 低 1-2 个数量级
  • 10 个 NLP 任务(毒性、讽刺、仇恨、情感等),GPT-2-large 的 Spearman 均达 0.99-1.00

消融实验要点

  • 降维维度从极小值增大时一致性快速提升后饱和,干预动力学确实紧凑
  • Krylov 基系统性优于随机正交基,尤其在困难任务上
  • 扰动幅度在宽范围内一致性稳定,线性化处于合理局部区间

亮点

  • 「模型越大,局部深度动力学越线性」的缩放规律反直觉但实证强劲
  • 把干预设计从启发式层扫描提升为有解析解的最优控制问题
  • 分析-设计-验证的闭环工作流范式值得借鉴

局限性 / 可改进方向

  • 仅在 GPT-2 家族(最大 774M)上验证,需扩展到 LLaMA/Mistral 等更大模型
  • 代理模型是 prompt 条件的局部描述,不同 prompt 需重新辨识
  • 概念方向仅用均值差估计,对复杂概念可能不足
  • 未讨论多概念同时干预场景

与相关工作的对比

  • vs Activation Addition (Turner et al.): 后者只提供干预方向,本文进一步预测哪层最有效及如何分配能量
  • vs 线性表示假说 (Park et al.): 后者解释概念为何可线性编码(静态),本文研究扰动如何跨层传播(动力学)
  • vs Golden (2025) 等价线性映射: 本文用降维代理换来增益预测和控制设计能力

启发与关联

  • 对层级剪枝的理论指导:深度动力学低秩意味着可能存在可安全跳过的冗余层
  • 对表示工程和安全对齐有实际价值:最优多层干预比单层注入效率高一个数量级

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 控制论视角的 Transformer 分析非常新颖,缩放规律发现令人惊讶
  • 实验充分度: ⭐⭐⭐⭐ 10 任务 x 3 模型规模 x 多消融维度,但仅限 GPT-2 家族
  • 写作质量: ⭐⭐⭐⭐⭐ 叙事清晰,图表精美,理论与实验衔接紧密
  • 价值: ⭐⭐⭐⭐ 为激活引导提供理论基础,但大模型验证缺失限制即时影响