跳转至

Hidden Breakthroughs in Language Model Training

会议: ICLR 2026 / arXiv: 2506.15872 / 代码: GitHub / 领域: llm_nlp / 关键词: 训练动力学, 相变, 损失分解, 无监督可解释性, Hessian 特征向量

一句话总结

提出 POLCA 方法,将训练损失沿低秩训练子空间的任意基方向进行分解,揭示了在整体损失曲线平滑区域中隐藏的概念性突破(hidden breakthroughs),实现了对模型技能习得过程的无监督可解释性分析。

研究背景与动机

语言模型训练过程中存在各种突然的相变(phase transitions),如上下文学习能力的涌现、语法结构的习得等。然而,整体损失曲线通常非常平滑,这些关键的概念性突破被聚合损失掩盖了。

现有识别相变的工作大多采用自顶向下的方式:先预定义一个概念或技能,再测量其训练动态变化。本文提出自底向上的无监督方法。

核心洞察:平滑的损失曲线实际上是多个在不同时间发生的 sigmoidal 相变的叠加。一条曲线看起来平滑,并不意味着没有发生突破——突破被平均掉了。

为什么需要分解损失? 1. 单个数据点可能受益于多个概念突破 2. 不同概念可能同时出现,导致聚类错误合并 3. 需要将单个样本的多个技能在梯度空间中解耦

为什么线性分解足够? - 训练子空间是低秩的(Gur-Ari et al., 2018) - 线性连接的检查点保留语义能力(Frankle et al., 2020) - 非线性连接的模型鲁棒性更差(Juneja et al., 2023)

方法详解

整体框架

POLCA(Projection Oriented Loss Change Allocation)分为三个步骤: 1. 选择基:构建可解释的正交基 2. 分解损失:沿该基分解损失以突出特定学习事件 3. 聚类数据点:根据共享的学习事件进行聚类

关键设计

基的构建(Algorithm 1): - 在 T 个训练 checkpoint 处计算 Hessian 矩阵的特征向量 - 迭代构建:每个 checkpoint 将 Hessian 投影到现有基的零空间,取前 k 个特征向量 - 过滤掉仅代表振荡(非学习)的方向——移除那些平均投影损失增加的方向 - 最终得到 Tk 维低秩子空间

POLCA 分解(与 LCA 的三个关键区别): 1. 任意基方向:不限于单个参数轴,允许任意正交基向量 b 2. 单样本级别:关注每个样本 x 的损失变化,而非整个数据集 3. 二阶近似:因为基从 Hessian 特征向量构建,高曲率区域需要二阶项

一阶 POLCA 将损失变化分解为沿各基向量方向的梯度投影与参数移动的内积之和。完整二阶 POLCA 额外包含 Hessian 投影的修正项,确保对高曲率方向有更好的近似精度。

聚类: - 计算累积投影损失:对每个基向量和数据点,累加各 checkpoint 的 POLCA 值 - 对每个基向量分别使用 HDBSCAN 聚类(支持变密度、区分离群点) - 定义突破点为损失加速度的最大值点(二阶差分)

隐藏突破的定义

当整体损失已经平坦(训练步 > tau),某个聚类仍在投影损失上存在突变,则该突破被定义为"隐藏突破"。形式化为该聚类的平均突破起始点超过阈值 tau。

实验关键数据

主实验:算术加法任务

3 层 9M 参数 Transformer,训练 3 位数加法。技能包括:各位数字技能 + 进位(carrying)技能。

聚类质量对比(表1):

分解策略 最大进位同质性 隐藏突破比例
精确损失 0.514 0.0
精确损失变化 0.524 0.0
LCA (Lan et al., 2020) 0.792 0.019
POLCA 0.973 0.355

精确损失聚类可以恢复数字位技能(因为不同位的损失曲线差异大),但无法恢复进位技能。POLCA 聚类在前 2 个基向量上就能同时恢复数字位和进位技能(同质性 0.90)。

英语语言建模实验

3 层 40M 参数模型,训练 Wikipedia 数据。30 个基向量中过滤后 22 个有至少一个简单可解释聚类。

发现的可解释聚类示例: - 基向量 #13:句子首个子句后的介词("from"、"and") - 基向量 #23 聚类 1:同位名词短语(appositive noun phrases) - 基向量 #23 聚类 2:非同位逗号后短语——与聚类 1 投影损失方向相反

关键现象:不同聚类在投影损失上呈现"镜像"运动——一个聚类的损失下降对应另一个聚类的损失上升,但在精确损失曲线上两者都很平滑。

消融实验

  • 分别对比了精确损失、精确损失变化、LCA、一阶 POLCA、二阶 POLCA
  • 二阶 POLCA 最优,虽然一阶和二阶数值差别不大(附录 I)
  • 移除振荡方向的过滤步骤非常重要
  • HDBSCAN 比 K-Means 更适合发现形状相似但位置不同的聚类

关键发现

  1. 相变无处不在:验证了 Nanda et al. (2023) 的猜想——看似平坦的训练区域充满了隐藏的相变
  2. 多个 sigmoidal 叠加成平滑曲线:直接证实了 Saxe et al. (2019) 的理论
  3. 不同技能沿不同方向学习:进位技能和数字位技能依赖不同的梯度方向
  4. 对立聚类:某些语法构造沿同一基方向呈现相反的学习动态

亮点与洞察

  1. 方法论创新性强:从"自顶向下定义技能"转向"自底向上发现技能",是训练动力学研究的范式转变
  2. 理论动机扎实:从多尺度损失面、Singular Learning Theory、线性模式连接等角度充分证明方法的合理性
  3. POLCA 分解优雅:将 LCA 从参数轴扩展到任意正交基,同时从聚合数据下沉到单样本级别
  4. 自动标注 pipeline:通过 POS 标签模板自动为聚类生成可解释标签
  5. 连接可解释性与训练:揭示了潜在的数据选择和学习率调度优化方向

局限性 / 可改进方向

  1. 规模限制:仅在 9M 和 40M 模型上验证,现代 LLM 规模下的可行性未知
  2. 计算成本:需在多个 checkpoint 计算 Hessian 特征向量,对大模型可能不现实
  3. 基的选择:当前使用 Hessian 特征向量,可能存在更好的基
  4. 非线性技能:假设技能可用线性方向表示,复杂技能可能跨越多个方向
  5. 聚类质量依赖手动验证:自动标注仅覆盖有简单 POS 模式的聚类

相关工作与启发

  • LCA [Lan et al., 2020]:按单个参数轴分解损失——POLCA 将其扩展到任意方向
  • Skill-It [Chen et al., 2024b]:分析不同技能的损失曲线——但需要预定义技能
  • SAEs (Sparse Autoencoders):特征级可解释性——POLCA 提供训练动力学层面的可解释性
  • Singular Learning Theory [Watanabe, 2010]:理论预测相变——POLCA 提供实证发现工具
  • N2G [Foote et al., 2023]:ngram 基可解释性工具——POLCA 的自动标注参考了类似方法

评分

维度 评分
理论深度 ⭐⭐⭐⭐⭐
新颖性 ⭐⭐⭐⭐⭐
实验充分性 ⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐⭐
实用价值 ⭐⭐⭐
总体评价 ⭐⭐⭐⭐