跳转至

Gemstones: A Model Suite for Multi-Faceted Scaling Laws

会议: NeurIPS 2025
arXiv: 2502.06857
代码: https://github.com/mcleish7/gemstone-scaling-laws
领域: 缩放律、模型架构、训练动力学
关键词: 宽度-深度比、计算最优性、扩展律、模型设计

一句话总结

Gemstones开源4000+检查点数据集(至2B参数),系统研究宽度-深度-训练代币在缩放律中的影响,揭示缩放律对设计选择的高度敏感性。

研究背景与动机

现有缩放律研究通常: - 固定受限的宽度-深度比范围 - 忽视超参数(学习率、冷却策略)的影响 - 依赖稀疏采样导致拟合不稳定

这导致不同工作的缩放律处方差异巨大(Kaplan vs Hoffmann等)。Gemstones通过全面的模型套件系统量化设计选择的影响。

方法详解

整体框架

模型规范: - 参数范围:50M、100M、500M、1B、2B(±5%容差) - 宽度-深度覆盖:从256到3072维度,3到80层深度 - 总计2222个模型配置跨越1111宽度值和1818深度值

训练配置: - 数据:Dolma 1.7,350B代币 - 优化:AdamW,线性warmup + 常学习率 - 并行:AMD MI250X GPUs,张量并行 - 检查点频率:每2B代币保存(4000+检查点)

关键创新—凸包拟合法

问题:Hoffmann方法假设模型密集分布在FLOP-优化线上,但变宽度模型形成2D点云,存在稀疏优化顶点。

解决方案: 1. 计算损失的下凸包 2. 仅在凸包顶点拟合缩放律 3. 自动排除次优模型(上凸包上的点)

效果:相比binning方法,提高拟合稳定性,减少异常值影响。

实验关键数据

拟合方法 令牌范围 冷却 LR调整 斜率 Δ
Hoffmann原始 - 0.512 -
Approach 1 w/ Embeds 全部 0.458 -
- ≤100B 0.499 +0.041
- >120B 0.799 +0.341
- 全部 0.597 +0.139
Approach 3 w/ Embeds 全部 0.697 -

ImageNet基准(50亿参数范围): | 模型 | 深度×宽度 | 200B步 | 300B步 | 350B步 | |------|---------|--------|--------|--------| | 浅宽 | 1024×28 | 85.2 | 86.1 | 86.4 | | 深中 | 1792×18 | 85.4 | 86.5 | 86.8 | | 更深 | 2560×8 | 85.6 | 86.6 | 86.9 |

亮点与洞察

  1. 缩放律脆弱性量化:简单的模型选择改变(仅5个模型)导致斜率变化0.34(Δ=0.34),超过整个研究社区间差异

  2. 新的凸包方法:在稀疏采样下优于传统binning,提供更鲁棒的参数估计

  3. 宽度-深度-时间权衡

  4. 深模型:低FLOP下获更优损失 → 推荐用于受限计算预算
  5. 宽模型:低墙钟时间 → 在标准张量并行下实际更快(由于负载平衡)

  6. 冷却和学习率影响大:恒定学习率+冷却配置的缩放律与余弦调度有本质差异

  7. 嵌入参数计数关键:计数/不计数嵌入是Kaplan-Hoffmann分歧的主因

局限性

  1. 受限的超参数空间
  2. 固定膨胀因子(通常4)
  3. 恒定批大小(400万代币)
  4. 单一数据源(Dolma)

  5. 训练效率观察局限

  6. 仅张量并行,未探索管道并行
  7. 观察可能不泛化至其他并行策略

  8. 基准评估的泛化性

  9. 下游基准与预训练损失关联因模型形状而异
  10. ARC/HellaSwag预测较MMLU/GSM8K更稳定

  11. 缺乏3跳及以上分析

  12. 宽度/深度的最优比无通用规律
  13. 不同任务可能要求不同架构

相关工作

  • 经典缩放律:Kaplan et al. (2020)、Hoffmann et al. (2022)
  • 宽度-深度关系:Henighan et al. (2020)、Levine et al. (2020)
  • 模型形状研究:Gemma2、Llama family设计决策
  • 视觉中的形状:ViT缩放研究

评分

⭐⭐⭐⭐⭐ (5/5)