跳转至

Hidden Breakthroughs in Language Model Training

会议: ICLR 2026
arXiv: 2506.15872
代码: GitHub
领域: 可解释性
关键词: 训练动力学, 隐藏相变, 损失分解, 无监督可解释性, Hessian特征向量

一句话总结

提出 POLCA(Projection Oriented Loss Change Allocation)——一种沿低秩训练子空间任意正交基分解单样本损失变化的方法,从看似平滑的训练损失曲线中揭示出大量隐藏的概念性突破(hidden breakthroughs),将训练可解释性从"先定义技能再观测"翻转为"先分解再自动发现技能"。

研究背景与动机

领域现状:语言模型训练过程中会经历各种突然的相变——上下文学习能力的涌现、语法结构的习得、层级泛化能力的出现等。这些相变在理解模型学习机制、指导训练策略(如数据选择、学习率调度)方面具有重要价值。然而实际训练中,聚合损失曲线极其平滑,大量相变被掩盖在单一标量指标之下。

现有痛点:已有识别相变的方法几乎全部采用自顶向下范式——研究者先预定义一个概念或技能(如"进位"、"主语-谓语一致"),再监测该技能在训练过程中的动态变化。这种方法既无法发现未被预定义的新技能,也无法处理单个样本同时依赖多个技能的情况(polygenic scaling effects)。

核心矛盾:平滑的聚合损失曲线 ≠ 没有突破发生。Saxe et al. (2019) 的理论早已预测:多个不同时间发生的 sigmoidal 相变叠加后会产生一条平滑曲线。问题在于缺少从平滑曲线中反向恢复这些隐藏相变的工具。

本文目标 (1) 如何在不预定义技能的前提下自动发现训练中的概念突破?(2) 如何处理单个样本同时经历多个技能突破的纠缠问题?(3) 如何将损失分解到可解释的梯度方向上?

切入角度:作者观察到训练子空间是低秩的,且线性连接的 checkpoint 保留语义能力,暗示线性分解在概念层面是有意义的。如果将损失变化投射到 Hessian 高曲率方向上,每个方向可能对应一种"技能"的获取,由此可以将单个样本的损失变化解耦为多个独立方向上的变化。

核心 idea:沿 Hessian 特征向量构建的正交基分解每个样本的损失变化,再对投影损失轨迹聚类,即可无监督地发现隐藏在平滑训练曲线中的概念性突破。

方法详解

整体框架

POLCA 的 pipeline 分为三步:输入是一系列训练 checkpoint 和验证数据集,输出是按"共享学习事件"分组的数据聚类及其对应的突破时间点。具体流程为:(1) 从 Hessian 矩阵构建可解释正交基;(2) 将每个样本的损失变化沿该基进行 POLCA 分解;(3) 按投影损失轨迹的相似性聚类样本。

关键设计

  1. Hessian 正交基的迭代构建:

    • 功能:构建能捕获整个训练过程中主要梯度运动方向的低秩正交基
    • 核心思路:在 \(T\) 个训练 checkpoint 处,依次计算 Hessian 矩阵的特征向量。每个 checkpoint 先将 Hessian 投影到已有基的零空间(排除已捕获的方向),然后取投影后 Hessian 的前 \(k\) 个特征向量加入基。最终得到 \(Tk\) 维子空间。关键的过滤步骤是移除"振荡方向"——那些平均投影损失在整个训练过程中增加而非下降的基向量,因为它们只代表局部振荡而非长期学习
    • 设计动机:Hessian 顶部特征向量对应最大曲率方向,往往代表关键决策边界。零空间投影确保每个新 checkpoint 捕获新的信息,避免方向重复。振荡过滤确保残留下来的方向都代表真正的学习进展
  2. POLCA 损失分解(一阶 + 二阶):

    • 功能:将训练过程中每个样本的损失变化归因到各个基向量方向上
    • 核心思路:与经典 LCA(Loss Change Allocation)相比做了三个关键修改。第一,LCA 沿单个参数轴分解,POLCA 允许任意正交基向量 \(b\)第二,LCA 对整个数据集聚合,POLCA 下沉到单个样本 \(x\)第三,由于基从 Hessian 特征向量构建(高曲率方向),一阶 Taylor 近似误差可能很大,因此引入二阶修正项。一阶 POLCA 为 \(\langle b, \nabla_\theta L(x;\theta_t)\rangle \langle b, \theta_{t+1}-\theta_t\rangle\),二阶项通过将全局 Hessian 特征值按样本级损失变化比例缩放来近似单样本 Hessian,避免逐样本计算 Hessian 的巨大开销
    • 设计动机:单参数轴在高维空间中几乎没有语义意义,而 Hessian 特征向量方向有明确的几何含义(最大曲率 = 潜在决策边界)。单样本粒度允许发现仅影响特定数据子集的突破。二阶修正在理论上提供更紧的 Lagrange 误差上界
  3. 基于投影损失轨迹的 HDBSCAN 聚类:

    • 功能:将经历相似学习事件的数据点分组,自动发现共享技能的样本子集
    • 核心思路:对每个基向量 \(b\) 和样本 \(x\),计算累积投影损失 \(L_b(x, \theta_t) = \sum_{i=0}^{t-1} \text{POLCA}(x, b; \theta_i)\),形成一维时间序列。对每个基向量分别用 HDBSCAN 聚类这些轨迹。在聚类前先过滤掉投影损失增加的样本(这些不代表该方向上的正向学习)。聚类后使用 POS 标签模板自动为每个聚类生成可解释标签
    • 设计动机:HDBSCAN 可处理变密度聚类(形状相似但绝对值不同的曲线),且能识别离群点。按基向量分别聚类使得单个样本可以在不同方向上被归入不同聚类,从而处理一个 token 同时依赖多个技能的情况

隐藏突破的形式化定义

突破点定义为损失加速度的最大值:\(\text{break}(f, x, \Delta) = \arg\max_t [f(x, t+\Delta) - f(x,t)] - [f(x,t) - f(x,t-\Delta)]\)。当一个聚类的平均突破起点超过阈值 \(\tau\)\(\tau\) 标记聚合损失进入平坦区域的时间),该突破即为"隐藏突破"——在精确损失曲线平坦时仍在投影损失上发生剧变。

实验关键数据

主实验一:合成算术加法任务

3 层 9M 参数 Transformer,训练 3 位数加法(如 "342+578=920")。数据包含 4 种数字位技能和 1 种进位(carrying)技能。数字位技能的损失曲线差异大(容易直接聚类),但进位技能在精确损失中不可见。

分解策略 最大进位同质性↑ 隐藏突破比例↑ 能否恢复进位技能
精确损失 0.514 0.0
精确损失变化量 0.524 0.0
LCA (Lan et al., 2020) 0.792 0.019 部分
POLCA(本文) 0.973 0.355

POLCA 在前 2 个基向量上即可同时恢复数字位技能和进位技能,基向量 #2 的聚类中进位同质性达到 0.90。相比之下,精确损失聚类完全无法区分需要进位和不需要进位的样本。

主实验二:英语语言建模

3 层 40M 参数模型,在 Wikipedia 数据上训练。30 个基向量中过滤振荡方向后剩 26 个,其中 22 个有至少一个可简单标注的可解释聚类。

基向量 聚类标签 聚类内容示例 突破类型
#13 聚类1 句子首从句后介词 "from"、"and"、"after" 隐藏突破
#13 聚类2 连续换行符 段落结尾的 "\n\n" 早期突破
#13 聚类3 括号短语后逗号 逗号后的列举项 隐藏突破
#23 聚类1 同位名词短语 如 "Air Force Instruction 36-2406: Officer and..." 隐藏突破
#23 聚类2 非同位逗号后短语 列表项、年份列举 反向隐藏突破

最有趣的发现是基向量 #23 的"镜像现象":聚类 1(同位名词短语)和聚类 2(非同位逗号后短语)在投影损失上呈现完全相反的运动方向——同位语技能的获取伴随着模型对非同位逗号后 token 预测能力的短暂下降,说明这两种语法构造共享同一个梯度方向但竞争性学习。

消融与对比

消融配置 进位同质性 说明
POLCA 完整模型(二阶) 0.973 最优
POLCA 一阶 ~0.96 差异很小,但理论上界更差
不过滤振荡方向 显著下降 振荡方向产生噪声聚类
K-Means 替代 HDBSCAN 较差 K-Means 无法处理变密度和离群点
LCA(参数轴分解) 0.792 参数轴语义性远弱于 Hessian 方向

关键发现

  • 相变无处不在:验证了 Nanda et al. (2023) 的猜想。即便在聚合损失已完全平坦的训练后期,仍有 35.5% 的 POLCA 聚类展示出隐藏突破
  • 技能分离在梯度空间中自然发生:不同技能(如进位 vs 数字位)沿不同 Hessian 方向被学习,这为"技能"概念提供了梯度几何层面的操作化定义
  • 竞争性学习模式:某些语法构造(同位语 vs 列举项)沿同一基向量呈现对立学习动态,损失此消彼长
  • 线性分解的有效性:尽管只用了线性方法,恢复的聚类具有高度可解释性(22/26 基向量产生可标注聚类),支持训练子空间的线性可分性假设

亮点与洞察

  • 范式翻转——从 top-down 到 bottom-up:将训练动力学分析从"先假设技能再验证"翻转为"先分解再自动发现"。这与 SAEs 在表示空间做的事情平行:SAE 无监督发现表示中的特征,POLCA 无监督发现训练过程中的技能。这种对称性暗示两者可以互补
  • POLCA 分解的优雅性:仅对 LCA 做了三个精确修改(任意基→单样本→二阶),每个修改都有清晰的理论动机,整体方法复杂度可控。二阶修正项通过全局 Hessian 特征值按样本比例缩放来近似,回避了逐样本计算 Hessian 的灾难性成本
  • "镜像聚类"现象:同一基向量上两个聚类的投影损失呈反向运动,说明模型在学习某种语法区分时会暂时"牺牲"相近构造的预测能力。这一发现对理解训练中的能力权衡(capability trade-offs)有重要启发,可能指导更精细的数据课程设计

局限与展望

  • 模型规模瓶颈:仅在 9M 和 40M 参数模型上验证。现代 LLM 动辄数十亿参数,在每个 checkpoint 计算 Hessian 特征向量的成本极高,直接扩展不现实。可能的解法包括用随机投影近似 Hessian、仅对 LoRA 子空间做分解
  • 基的多样性受限:当前只用 Hessian 特征向量作为基。其他可能的基包括 PCA 主成分(训练轨迹的主方向)、SAE 解码器方向、任务梯度方向等。不同基可能揭示不同粒度的技能
  • 线性假设的局限:假设每种技能对应参数空间中的一个线性方向。复杂的组合性技能(如需要同时掌握语法 + 语义的能力)可能跨越多个方向,线性基无法直接捕获这种交互
  • 聚类的自动标注覆盖率有限:当前基于 POS 标签模板的自动标注仅覆盖有简单语法模式的聚类,更抽象的语义聚类需要人工审查。可考虑用 LLM 做自动标注
  • 缺少直接的下游应用验证:论文提到 POLCA 可指导数据选择和学习率调度,但未实际实验。验证 POLCA 发现的突破时间点是否能改善训练效率将大幅提升实用价值

相关工作与启发

  • vs LCA (Lan et al., 2020):LCA 沿单个参数轴分解聚合损失,语义性弱且不支持单样本分析。POLCA 在三个维度上推广(任意基、单样本、二阶),在进位技能恢复上同质性从 0.792 提升到 0.973
  • vs Skill-It (Chen et al., 2024b):Skill-It 分析不同预定义技能的损失曲线和技能间依赖关系。本文不需要预定义技能,是真正的无监督方法。Skill-It 的技能依赖图可以作为 POLCA 发现的验证工具
  • vs SAEs (Sparse Autoencoders):SAE 在模型表示空间中无监督发现特征,POLCA 在训练动力学空间中无监督发现技能。两者互补——SAE 回答"模型学到了什么表示",POLCA 回答"模型何时学到了这些东西"
  • vs Singular Learning Theory (Watanabe, 2010):SLT 从理论上预测模型训练中存在相变(通过分析奇异点结构)。POLCA 提供了实证发现这些相变的实用工具。Ma et al. (2022) 的多尺度损失面理论为 POLCA 的分解 + 解聚合策略提供了直接的理论支撑

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从 top-down 翻转为 bottom-up,POLCA 三重推广设计优雅,隐藏突破概念本身就很有启发性
  • 实验充分度: ⭐⭐⭐⭐ 合成任务验证充分但自然语言实验仅 40M 规模,缺少更大模型和下游应用验证
  • 写作质量: ⭐⭐⭐⭐⭐ 理论动机链清晰完整,从多个角度论证方法合理性,图表直观
  • 价值: ⭐⭐⭐⭐ 开辟了训练时可解释性的新方向,但规模限制使其暂时停留在分析工具层面

相关论文