Scaling with Collapse: Efficient and Predictable Training of LLM Families¶
会议: ICLR 2026
arXiv: 2509.25087
代码: 无
领域: LLM效率 / Scaling Laws
关键词: 训练损失曲线崩塞, 超参缩放, 训练诊断, 早停, Cerebras
一句话总结¶
证明 LLM 家族的训练损失曲线在优化超参数与数据预算匹配时会“崩塞”到同一条通用曲线上,并利用这一现象实现两个实用应用:(1) 偏离崩塞作为训练病理的早期诊断信号,(2) 崩塞曲线的可预测性实现大规模超参调优的早停。
研究背景与动机¶
- 领域现状:Scaling law 可预测最终损失,μP 可转移学习率,但完整的训练损失曲线(TLC)的可预测性尚未在实际 LLM 规模下验证。
- 现有痛点:
- Qiu et al. 发现损失曲线崩塞现象但仅在小规模验证,未测试实际 LLM 训练配方
- 前沿规模无法直接实验——需要从小规模推断
- 训练病理(loss spike)的诊断仍依赖人工判断
- 核心发现:损失曲线崩塞的充要条件是优化超参数对给定数据预算是最优的——崩塞是计算最优训练的“特征标记”。
- 切入角度:当所有模型以相同的 tokens-per-parameter (TPP=D/N) 训练且 AdamW 时间尺度 τ 设为最优时,不同大小的模型的 TLC 在简单归一化后落在同一条曲线上。
方法详解¶
整体框架¶
两个实用应用:(1) 偏离-崩塞诊断:在线监控当前 TLC 与通用崩塞曲线的偏差→异常 spike 或漂移可更早检测出训练问题;(2) 早停超参调优:崩塞曲线可预测→从部分 TLC 外推最终损失,早期停止表现差的配置。
关键设计¶
- 崩塞条件:所有模型 TPP 相同 + 超参最优(lr、batch size、weight decay 联合缩放)→ TLC 崩塞
- 偏离诊断:从小模型拟合通用曲线,大模型实时比较→数值稳定性问题在偏差中更早显现
- 早停:拟合崩塞曲线参数化模型,从前 10-20% 训练外推最终损失,节省 80%+ 超参调优计算量
Celerity LLM 家族¶
- 利用崩塞洞察训练的有竞争力 LLM 家族
- 在 Cerebras CS-3 上运行所有实验
实验关键数据¶
主实验¶
| 现象 | 结果 |
|---|---|
| Llama-2(不同 TPP) | TLC 不崩塞 |
| Celerity(相同 TPP + 最优超参) | TLC 完美崩塞 |
| 偏离诊断 | 比人工判断更早检测 loss spike |
| 早停超参 | 从 20% TLC 外推最终损失,误差 <1% |
关键发现¶
- 崩塞是计算最优训练的充要条件——仅当超参按 scaling law 设为最优时才出现
- 偏离诊断可更早发现数值稳定性问题(如 bf16 精度不足)
- 早停节省 80%+ 超参搜索计算
亮点与洞察¶
- 崩塞作为“健康标志”是一个简单但强大的工程工具——如果 TLC 不崩塞就说明超参或训练配方有问题
- 将崩塞现象从小规模实验推广到实际 LLM 训练是对 Qiu et al. 的重要验证
局限性 / 可改进方向¶
- 崩塞条件要求所有模型 TPP 相同——实际中不同模型可能有不同最优 TPP
- 仅验证了预训练损失——下游任务性能的崩塞未探索
- 早停外推依赖参数化崩塞曲线模型的准确性
相关工作与启发¶
- vs Chinchilla: Chinchilla 预测最终损失;本文预测整个训练过程
- vs Qiu et al.: 他们发现崩塞但小规模;本文验证实际 LLM 规模且发现崩塞条件
- vs μP: μP 转移学习率;本文转移整个 TLC 形状
评分¶
- 新颖性: ⭐⭐⭐⭐ 崩塞条件的发现和实用应用有洞察力
- 实验充分度: ⭐⭐⭐⭐⭐ 大规模 Cerebras 实验,多模型大小验证
- 写作质量: ⭐⭐⭐⭐⭐ 图1的三列对比极其直观
- 价值: ⭐⭐⭐⭐⭐ 对大规模 LLM 训练的实际工程指导价值极高