Scaling with Collapse: Efficient and Predictable Training of LLM Families¶

vs Chinchilla: Chinchilla 预测最终损失；本文预测整个训练过程
vs Qiu et al.: 他们发现崩塞但小规模；本文验证实际 LLM 规模且发现崩塞条件
vs μP: μP 转移学习率；本文转移整个 TLC 形状

会议: ICLR 2026
arXiv: 2509.25087
代码: 无
领域: LLM效率 / Scaling Laws
关键词: 训练损失曲线崩塞, 超参缩放, 训练诊断, 早停, Cerebras

一句话总结¶

证明 LLM 家族的训练损失曲线在优化超参数与数据预算匹配时会“崩塞”到同一条通用曲线上，并利用这一现象实现两个实用应用：(1) 偏离崩塞作为训练病理的早期诊断信号，(2) 崩塞曲线的可预测性实现大规模超参调优的早停。

领域现状：Scaling law 可预测最终损失，μP 可转移学习率，但完整的训练损失曲线（TLC）的可预测性尚未在实际 LLM 规模下验证。
现有痛点：
Qiu et al. 发现损失曲线崩塞现象但仅在小规模验证，未测试实际 LLM 训练配方
前沿规模无法直接实验——需要从小规模推断
训练病理（loss spike）的诊断仍依赖人工判断
核心发现：损失曲线崩塞的充要条件是优化超参数对给定数据预算是最优的——崩塞是计算最优训练的“特征标记”。
切入角度：当所有模型以相同的 tokens-per-parameter (TPP=D/N) 训练且 AdamW 时间尺度 τ 设为最优时，不同大小的模型的 TLC 在简单归一化后落在同一条曲线上。

两个实用应用：(1) 偏离-崩塞诊断：在线监控当前 TLC 与通用崩塞曲线的偏差→异常 spike 或漂移可更早检测出训练问题；(2) 早停超参调优：崩塞曲线可预测→从部分 TLC 外推最终损失，早期停止表现差的配置。