Convergence of Muon with Newton-Schulz¶

会议: ICLR2026
arXiv: 2601.19156
代码: 待确认
领域: 优化/理论
关键词: Muon optimizer, Newton-Schulz, polar decomposition, matrix optimization, convergence analysis

一句话总结¶

首次为实际使用的 Muon 优化器（使用 Newton-Schulz 近似而非精确 SVD 极坐标分解）提供非凸收敛保证：证明收敛速率匹配 SVD 理想化版本（差一个常数因子），该因子随 Newton-Schulz 步数 \(q\) 双指数衰减，且 Muon 比向量对应物 SGD-M 少 \(\sqrt{r}\) 倍秩损失。

研究背景与动机¶

领域现状：Muon 优化器通过正交化动量矩阵（而非像 Adam 那样向量化处理）来更新矩阵参数，在 LLM 训练中表现优异。实际使用 Newton-Schulz (NS) 迭代近似极坐标分解，避免昂贵的 SVD。
现有痛点：现有 Muon 理论分析（Shen et al., Li & Hong）都将 NS 替换为精确 SVD——但实际中从不用 SVD。NS 近似误差如何影响收敛？几步 NS 就够吗？why？
核心矛盾：实践中 Muon 用少量 NS 步就达到了 SVD 级别效果（更快的 wall-clock），但理论空白——实践远超理论。
切入角度：直接分析 NS 近似的极坐标误差 \(\varepsilon_q\)，证明它随步数双指数衰减。
核心idea一句话：NS 近似误差 \(\varepsilon_q\) 双指数衰减→几步 NS 就将 Muon 收敛率拉到 SVD 级别→每步计算远低于 SVD→wall-clock 更快。

方法详解¶

整体框架¶

Muon 每步：(1) 计算随机梯度 \(G_t\)；(2) 动量更新 \(M_t = \beta M_{t-1} + G_t\)；(3) 预缩放 \(X_{t,0} = M_t/\alpha_t\)；(4) \(q\) 步 NS 迭代 \(X_{t,j} = p_\kappa(X_{t,j-1}X_{t,j-1}^\top)X_{t,j-1}\) 近似正交化；(5) 更新 \(W_t = W_{t-1} - \eta O_t\)。分析目标：\(\frac{1}{T}\sum_t \mathbb{E}[\|\nabla f(W_{t-1})\|_*] \leq \epsilon\)。

关键设计（理论贡献）¶

Theorem 1: NS-Muon 非凸收敛:
Muon with \(q\) 步 NS 达到 \(\epsilon\)-平稳点的迭代数：\(T = O\left(\frac{C_q \cdot L D}{\epsilon^2}\right)\)
\(C_q\) 是唯一依赖 NS 近似的常数因子
Theorem 2: 极坐标近似误差双指数衰减:
\(\varepsilon_q \leq \varepsilon_0^{(2\kappa+1)^q}\)——随步数 \(q\) 双指数衰减，随多项式阶 \(\kappa\) 也衰减
意义：\(q = 3-5\) 步，\(\kappa = 2-3\) 就足以让 \(C_q \approx 1\)（匹配 SVD）
Wall-clock 优势：NS 只需矩阵乘法（GPU 高效），SVD 是 \(O(mn \min(m,n))\)
Theorem 3: 比 SGD-M 的秩优势:
Muon 收敛率比 SGD-M 快 \(\sqrt{r}\) 倍（\(r = \min(m,n)\)，矩阵秩）
原因：Muon 在 nuclear norm 下工作→利用了矩阵低秩结构→更高效的搜索方向

实验关键数据¶

主实验（收敛对比）¶

方法	度量	收敛率	秩依赖
SGD-M	Frobenius 梯度	\(O(1/\sqrt{T})\)	\(\sqrt{r}\) 损失
Muon (SVD)	Nuclear 梯度	\(O(1/\sqrt{T})\)	无 \(\sqrt{r}\) 损失
Muon (NS, \(q\) 步)	Nuclear 梯度	\(O(C_q/\sqrt{T})\)	无 \(\sqrt{r}\) 损失

消融（\(C_q\) vs 步数 \(q\)）¶

NS 步数 \(q\)	\(\kappa=2\) 时 \(C_q\)	\(\kappa=3\) 时 \(C_q\)
1	大	中等
3	\(\approx 1.01\)	\(\approx 1.001\)
5	\(\approx 1.0\)	\(\approx 1.0\)

关键发现¶

3-5 步 NS 就匹配 SVD：\(C_q\) 双指数收敛到 1，实际中的选择有充分理论根据
Muon vs SGD-M 的 \(\sqrt{r}\) 优势：对高秩矩阵参数（如大 attention 层），优势显著
wall-clock 优势解释：NS 每步成本远低于 SVD，迭代数几乎相同→总时间更少

亮点与洞察¶

首次为实际 Muon 提供理论保证：关闭了 practice-theory gap。之前所有理论都"假装"用 SVD
双指数衰减是关键 insight：\(\varepsilon_q \leq \varepsilon_0^{5^q}\)（\(\kappa=2\) 时）——3步误差 \(< 10^{-100}\)
Nuclear norm 度量的选择：在矩阵空间用 nuclear norm 而非 Frobenius——自然匹配极坐标分解，揭示秩优势
对未来矩阵优化器的启发：NS 近似的通用分析框架可扩展到其他矩阵优化器

局限性 / 可改进方向¶

纯理论贡献，无新实验（但论文目标就是解释已有实践）
假设标准光滑+有界方差，未覆盖 Adam 风格自适应
未分析 Muon 与 Shampoo/SOAP 等二阶方法的比较

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次为实际使用的 NS-Muon 提供收敛理论，双指数衰减结果优美
实验充分度: ⭐⭐⭐ 纯理论，无新实验（但合理——补充已有实践的理论解释）
写作质量: ⭐⭐⭐⭐⭐ 研究问题清晰、定理层层递进、叙述严谨流畅
价值: ⭐⭐⭐⭐⭐ 为当下最热门的矩阵优化器提供了急需的理论基础