跳转至

Scaling with Collapse: Efficient and Predictable Training of LLM Families

会议: ICLR 2026
arXiv: 2509.25087
代码: 无
领域: LLM效率 / Scaling Laws
关键词: 训练损失曲线崩塞, 超参缩放, 训练诊断, 早停, Cerebras

一句话总结

证明 LLM 家族的训练损失曲线在优化超参数与数据预算匹配时会“崩塞”到同一条通用曲线上,并利用这一现象实现两个实用应用:(1) 偏离崩塞作为训练病理的早期诊断信号,(2) 崩塞曲线的可预测性实现大规模超参调优的早停。

研究背景与动机

  1. 领域现状:Scaling law 可预测最终损失,μP 可转移学习率,但完整的训练损失曲线(TLC)的可预测性尚未在实际 LLM 规模下验证。
  2. 现有痛点
  3. Qiu et al. 发现损失曲线崩塞现象但仅在小规模验证,未测试实际 LLM 训练配方
  4. 前沿规模无法直接实验——需要从小规模推断
  5. 训练病理(loss spike)的诊断仍依赖人工判断
  6. 核心发现:损失曲线崩塞的充要条件是优化超参数对给定数据预算是最优的——崩塞是计算最优训练的“特征标记”。
  7. 切入角度:当所有模型以相同的 tokens-per-parameter (TPP=D/N) 训练且 AdamW 时间尺度 τ 设为最优时,不同大小的模型的 TLC 在简单归一化后落在同一条曲线上。

方法详解

整体框架

两个实用应用:(1) 偏离-崩塞诊断:在线监控当前 TLC 与通用崩塞曲线的偏差→异常 spike 或漂移可更早检测出训练问题;(2) 早停超参调优:崩塞曲线可预测→从部分 TLC 外推最终损失,早期停止表现差的配置。

关键设计

  1. 崩塞条件:所有模型 TPP 相同 + 超参最优(lr、batch size、weight decay 联合缩放)→ TLC 崩塞
  2. 偏离诊断:从小模型拟合通用曲线,大模型实时比较→数值稳定性问题在偏差中更早显现
  3. 早停:拟合崩塞曲线参数化模型,从前 10-20% 训练外推最终损失,节省 80%+ 超参调优计算量

Celerity LLM 家族

  • 利用崩塞洞察训练的有竞争力 LLM 家族
  • 在 Cerebras CS-3 上运行所有实验

实验关键数据

主实验

现象 结果
Llama-2(不同 TPP) TLC 不崩塞
Celerity(相同 TPP + 最优超参) TLC 完美崩塞
偏离诊断 比人工判断更早检测 loss spike
早停超参 从 20% TLC 外推最终损失,误差 <1%

关键发现

  • 崩塞是计算最优训练的充要条件——仅当超参按 scaling law 设为最优时才出现
  • 偏离诊断可更早发现数值稳定性问题(如 bf16 精度不足)
  • 早停节省 80%+ 超参搜索计算

亮点与洞察

  • 崩塞作为“健康标志”是一个简单但强大的工程工具——如果 TLC 不崩塞就说明超参或训练配方有问题
  • 将崩塞现象从小规模实验推广到实际 LLM 训练是对 Qiu et al. 的重要验证

局限性 / 可改进方向

  • 崩塞条件要求所有模型 TPP 相同——实际中不同模型可能有不同最优 TPP
  • 仅验证了预训练损失——下游任务性能的崩塞未探索
  • 早停外推依赖参数化崩塞曲线模型的准确性

相关工作与启发

  • vs Chinchilla: Chinchilla 预测最终损失;本文预测整个训练过程
  • vs Qiu et al.: 他们发现崩塞但小规模;本文验证实际 LLM 规模且发现崩塞条件
  • vs μP: μP 转移学习率;本文转移整个 TLC 形状

评分

  • 新颖性: ⭐⭐⭐⭐ 崩塞条件的发现和实用应用有洞察力
  • 实验充分度: ⭐⭐⭐⭐⭐ 大规模 Cerebras 实验,多模型大小验证
  • 写作质量: ⭐⭐⭐⭐⭐ 图1的三列对比极其直观
  • 价值: ⭐⭐⭐⭐⭐ 对大规模 LLM 训练的实际工程指导价值极高