Gemstones: A Model Suite for Multi-Faceted Scaling Laws¶
会议: NeurIPS 2025
arXiv: 2502.06857
代码: https://github.com/mcleish7/gemstone-scaling-laws
领域: 缩放律、模型架构、训练动力学
关键词: 宽度-深度比、计算最优性、扩展律、模型设计
一句话总结¶
Gemstones开源4000+检查点数据集(至2B参数),系统研究宽度-深度-训练代币在缩放律中的影响,揭示缩放律对设计选择的高度敏感性。
研究背景与动机¶
现有缩放律研究通常: - 固定受限的宽度-深度比范围 - 忽视超参数(学习率、冷却策略)的影响 - 依赖稀疏采样导致拟合不稳定
这导致不同工作的缩放律处方差异巨大(Kaplan vs Hoffmann等)。Gemstones通过全面的模型套件系统量化设计选择的影响。
方法详解¶
整体框架¶
模型规范: - 参数范围:50M、100M、500M、1B、2B(±5%容差) - 宽度-深度覆盖:从256到3072维度,3到80层深度 - 总计2222个模型配置跨越1111宽度值和1818深度值
训练配置: - 数据:Dolma 1.7,350B代币 - 优化:AdamW,线性warmup + 常学习率 - 并行:AMD MI250X GPUs,张量并行 - 检查点频率:每2B代币保存(4000+检查点)
关键创新—凸包拟合法¶
问题:Hoffmann方法假设模型密集分布在FLOP-优化线上,但变宽度模型形成2D点云,存在稀疏优化顶点。
解决方案: 1. 计算损失的下凸包 2. 仅在凸包顶点拟合缩放律 3. 自动排除次优模型(上凸包上的点)
效果:相比binning方法,提高拟合稳定性,减少异常值影响。
实验关键数据¶
| 拟合方法 | 令牌范围 | 冷却 | LR调整 | 斜率 | Δ |
|---|---|---|---|---|---|
| Hoffmann原始 | - | ✗ | ✗ | 0.512 | - |
| Approach 1 w/ Embeds | 全部 | ✗ | ✗ | 0.458 | - |
| - | ≤100B | ✗ | ✗ | 0.499 | +0.041 |
| - | >120B | ✗ | ✗ | 0.799 | +0.341 |
| - | 全部 | ✓ | ✗ | 0.597 | +0.139 |
| Approach 3 w/ Embeds | 全部 | ✗ | ✗ | 0.697 | - |
ImageNet基准(50亿参数范围): | 模型 | 深度×宽度 | 200B步 | 300B步 | 350B步 | |------|---------|--------|--------|--------| | 浅宽 | 1024×28 | 85.2 | 86.1 | 86.4 | | 深中 | 1792×18 | 85.4 | 86.5 | 86.8 | | 更深 | 2560×8 | 85.6 | 86.6 | 86.9 |
亮点与洞察¶
-
缩放律脆弱性量化:简单的模型选择改变(仅5个模型)导致斜率变化0.34(Δ=0.34),超过整个研究社区间差异
-
新的凸包方法:在稀疏采样下优于传统binning,提供更鲁棒的参数估计
-
宽度-深度-时间权衡:
- 深模型:低FLOP下获更优损失 → 推荐用于受限计算预算
-
宽模型:低墙钟时间 → 在标准张量并行下实际更快(由于负载平衡)
-
冷却和学习率影响大:恒定学习率+冷却配置的缩放律与余弦调度有本质差异
-
嵌入参数计数关键:计数/不计数嵌入是Kaplan-Hoffmann分歧的主因
局限性¶
- 受限的超参数空间:
- 固定膨胀因子(通常4)
- 恒定批大小(400万代币)
-
单一数据源(Dolma)
-
训练效率观察局限:
- 仅张量并行,未探索管道并行
-
观察可能不泛化至其他并行策略
-
基准评估的泛化性:
- 下游基准与预训练损失关联因模型形状而异
-
ARC/HellaSwag预测较MMLU/GSM8K更稳定
-
缺乏3跳及以上分析:
- 宽度/深度的最优比无通用规律
- 不同任务可能要求不同架构
相关工作¶
- 经典缩放律:Kaplan et al. (2020)、Hoffmann et al. (2022)
- 宽度-深度关系:Henighan et al. (2020)、Levine et al. (2020)
- 模型形状研究:Gemma2、Llama family设计决策
- 视觉中的形状:ViT缩放研究
评分¶
⭐⭐⭐⭐⭐ (5/5)