跳转至

Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales

会议: NEURIPS2025
arXiv: 2512.05620
代码: 待确认
领域: LLM效率 / 优化
关键词: optimizer scaling, μP, Shampoo, SOAP, Muon, hyperparameter transfer, matrix preconditioning

一句话总结

研究矩阵预条件优化器(Shampoo/SOAP/Muon)的超参数随模型宽度和深度的缩放规则(基于 μP),发现正确的超参缩放是实现一致加速的关键:使用 μP + 1/width weight decay,三者在 190M 到 1.4B 参数的 Llama 模型上一致实现约 1.4× 加速。

研究背景与动机

  1. 领域现状:多个矩阵预条件优化器(Shampoo、SOAP、Muon)在小规模实验中展示了相对 AdamW 的显著加速(1.5-2×)。Muon 在 OpenAI 万亿参数训练中已被使用。
  2. 现有痛点:复现工作报告的加速效果不一致——有的团队报告 2× 加速,有的只报告 1.1×,有的发现加速随规模快速消失。根本原因是缺乏可靠的超参数缩放规则
  3. 核心矛盾:语言建模的 loss-compute 缩放指数很小(~0.05),意味着 2% 的 loss 差异对应 40% 的 compute 差异。在大模型上不可能做网格搜索,必须有可靠的超参迁移。
  4. 本文要解决什么? 推导 Shampoo/SOAP/Muon 等的 μP 学习率缩放规则,并验证正确缩放对跨规模一致加速的关键作用。
  5. 切入角度:基于 μP(Maximal Update Parameterization)理论推导每个优化器的学习率、weight decay 随宽度和深度的缩放。
  6. 核心idea一句话:矩阵预条件优化器的加速是真实的,但需要正确的 μP 缩放才能在大规模上稳定展现。

方法详解

整体框架

对每种矩阵预条件优化器,推导其 μP 缩放规则(学习率、weight decay、正则化参数随模型宽度/深度如何缩放),然后在 190M→1.4B 语言模型上验证。

关键设计

  1. μP 推导(通用方法)
  2. 对每层权重矩阵 \(W \in \mathbb{R}^{n \times m}\),确保更新量 \(\Delta W\) 的 RMS 缩放在宽度→∞时一致
  3. 不同优化器因为预条件方式不同,学习率缩放也不同:Adam 是 \(1/d_{\text{in}}\),Muon 是 \(\sqrt{d_{\text{out}}/d_{\text{in}}}\),Shampoo 取决于指数 \(e_L, e_R\)

  4. 有限宽度偏差的缓解

  5. μP 保证无限宽度极限下学习率迁移,但实际有限宽度下最优学习率可能偏移
  6. Blocking(将大权重矩阵分块处理)和 Spectral Normalization 可有效缓解偏移
  7. Grafting(用另一优化器的范数归一化更新方向)也影响缩放

  8. Weight Decay 缩放

  9. 发现独立 weight decay(不随学习率缩放)按 \(1/\text{width}\) 缩放在所有优化器上近乎最优
  10. 这与 Xiao (2024) 的建议一致

损失函数 / 训练策略

  • 在 FineWeb 数据集上训练 Llama 架构语言模型(190M, 470M, 1B, 1.4B)
  • 对每个优化器在小模型上调参,然后按 μP 缩放迁移到大模型

实验关键数据

主实验

在 190M→1.4B Llama 模型上的 compute-equivalent 比较:

优化器 μP 缩放 190M 加速 470M 加速 1B 加速 1.4B 加速
Muon ~1.4× ~1.4× ~1.4× ~1.4×
SOAP ~1.4× ~1.4× ~1.4× ~1.4×
Shampoo ~1.4× ~1.4× ~1.3× ~1.3×
Muon ❌ (SP) ~1.4× ~1.2× ~1.0× 消失

消融实验

配置 结果 说明
μP vs 标准参数化 μP 下加速一致,SP 下随规模消失 超参迁移是关键
Blocking (128) 改善有限宽度偏差 实用且有效
Spectral norm 降低学习率敏感性 与 μP 互补
WD=1/width vs 固定 WD 1/width 近乎最优 跨优化器一致
Compute-optimal 模型大小 矩阵预条件优化器偏好更大模型 与 AdamW 不同的 scaling law

关键发现

  • 超参缩放错误是之前复现失败的主要原因:标准参数化下,Muon/SOAP 的加速在 1B+ 模型上几乎消失
  • 1.4× 加速是一致且可靠的:在正确 μP 下,三种优化器在所有测试规模上一致实现约 1.4× compute savings
  • μP 对不同优化器的缩放不同:不能直接把 Adam 的 μP 用在 Muon 上(常见错误)

亮点与洞察

  • 系统性地解决了"矩阵预条件优化器到底有没有用"的争议——答案是有用,但需要正确缩放。之前的混乱结果都可以用超参错误解释
  • μP 推导方法的通用性:给出了一个简单通用的流程,可以对任何新优化器快速推导缩放规则
  • 实用指导:给出了每种优化器的完整缩放公式(Table 1),可以直接使用

局限性 / 可改进方向

  • 最大模型只到 1.4B:10B+ 模型上的验证缺失
  • 仅测试语言建模:视觉/多模态等其他任务未涉及
  • 加速相对保守(1.4×):相比一些工作报告的 2× 偏保守,可能是因为 AdamW baseline 更充分调参
  • 改进方向:更大规模验证;与学习率 warmup/cooldown schedule 的交互分析;自动超参迁移工具

相关工作与启发

  • vs Liu et al. (2024, M-Muon): 他们报告 Muon 2× 加速但未用 μP,可能是 AdamW baseline 不够优
  • vs Wen et al. (2024): 他们报告加速随规模消失——本文解释了原因(SP 下的超参偏移)
  • vs Yang et al. (μP): 原始 μP 只覆盖 Adam/SGD,本文扩展到矩阵预条件优化器

评分

  • 新颖性: ⭐⭐⭐⭐ μP 推广到新优化器的方法简洁,但核心框架基于已有 μP
  • 实验充分度: ⭐⭐⭐⭐⭐ 多优化器×多规模×消融,非常彻底
  • 写作质量: ⭐⭐⭐⭐⭐ 清晰系统,Table 1 总结缩放规则一目了然
  • 价值: ⭐⭐⭐⭐⭐ 直接解决了社区争议,提供了可操作的实用指导