Gemstones: A Model Suite for Multi-Faceted Scaling Laws¶

会议: NeurIPS 2025
arXiv: 2502.06857
代码: https://github.com/mcleish7/gemstone-scaling-laws
领域: 缩放律、模型架构、训练动力学
关键词: 宽度-深度比、计算最优性、扩展律、模型设计

一句话总结¶

Gemstones开源4000+检查点数据集（至2B参数），系统研究宽度-深度-训练代币在缩放律中的影响，揭示缩放律对设计选择的高度敏感性。

研究背景与动机¶

现有缩放律研究通常： - 固定受限的宽度-深度比范围 - 忽视超参数（学习率、冷却策略）的影响 - 依赖稀疏采样导致拟合不稳定

这导致不同工作的缩放律处方差异巨大（Kaplan vs Hoffmann等）。Gemstones通过全面的模型套件系统量化设计选择的影响。

方法详解¶

整体框架¶

模型规范： - 参数范围：50M、100M、500M、1B、2B（±5%容差） - 宽度-深度覆盖：从256到3072维度，3到80层深度 - 总计2222个模型配置跨越1111宽度值和1818深度值

训练配置： - 数据：Dolma 1.7，350B代币 - 优化：AdamW，线性warmup + 常学习率 - 并行：AMD MI250X GPUs，张量并行 - 检查点频率：每2B代币保存（4000+检查点）

关键创新—凸包拟合法¶

问题：Hoffmann方法假设模型密集分布在FLOP-优化线上，但变宽度模型形成2D点云，存在稀疏优化顶点。

解决方案： 1. 计算损失的下凸包 2. 仅在凸包顶点拟合缩放律 3. 自动排除次优模型（上凸包上的点）

效果：相比binning方法，提高拟合稳定性，减少异常值影响。

实验关键数据¶

拟合方法	令牌范围	冷却	LR调整	斜率	Δ
Hoffmann原始	-	✗	✗	0.512	-
Approach 1 w/ Embeds	全部	✗	✗	0.458	-
-	≤100B	✗	✗	0.499	+0.041
-	>120B	✗	✗	0.799	+0.341
-	全部	✓	✗	0.597	+0.139
Approach 3 w/ Embeds	全部	✗	✗	0.697	-

ImageNet基准（50亿参数范围）： | 模型 | 深度×宽度 | 200B步 | 300B步 | 350B步 | |------|---------|--------|--------|--------| | 浅宽 | 1024×28 | 85.2 | 86.1 | 86.4 | | 深中 | 1792×18 | 85.4 | 86.5 | 86.8 | | 更深 | 2560×8 | 85.6 | 86.6 | 86.9 |

亮点与洞察¶

缩放律脆弱性量化：简单的模型选择改变（仅5个模型）导致斜率变化0.34（Δ=0.34），超过整个研究社区间差异
新的凸包方法：在稀疏采样下优于传统binning，提供更鲁棒的参数估计
宽度-深度-时间权衡：
深模型：低FLOP下获更优损失 → 推荐用于受限计算预算
宽模型：低墙钟时间 → 在标准张量并行下实际更快（由于负载平衡）
冷却和学习率影响大：恒定学习率+冷却配置的缩放律与余弦调度有本质差异
嵌入参数计数关键：计数/不计数嵌入是Kaplan-Hoffmann分歧的主因

局限性¶

受限的超参数空间：
固定膨胀因子（通常4）
恒定批大小（400万代币）
单一数据源（Dolma）
训练效率观察局限：
仅张量并行，未探索管道并行
观察可能不泛化至其他并行策略
基准评估的泛化性：
下游基准与预训练损失关联因模型形状而异
ARC/HellaSwag预测较MMLU/GSM8K更稳定
缺乏3跳及以上分析：
宽度/深度的最优比无通用规律
不同任务可能要求不同架构

评分¶

⭐⭐⭐⭐⭐ (5/5)