Understanding Adam Requires Better Rotation Dependent Assumptions¶

会议: NeurIPS 2025
arXiv: 2410.19964
代码: 暂无
领域: 优化
关键词: Adam优化器, 旋转等变性, 参数空间旋转, 正交性, 自适应优化

一句话总结¶

本文通过系统的实验研究揭示了 Adam 优化器对参数空间坐标基底的强依赖性，证明现有旋转不变的理论假设不足以解释 Adam 的优越性，并发现层更新的正交性是预测 Adam 在不同基底下性能的有力指标。

研究背景与动机¶

尽管 Adam 是训练 Transformer 模型的标准优化器，但其相对于 SGD 的优势缺乏全面的理论解释。SGD 具有旋转等变性——如果参数空间被旋转，SGD 的优化轨迹也会相应旋转；而 Adam 由于其逐元素除法操作，不具备这一性质。

现有文献中用于分析 Adam 的理论假设大多是旋转不变的（如有界梯度方差、Lipschitz 光滑性等），这意味着这些分析对任何基底给出相同的收敛保证，无法解释 Adam 为什么在标准基底下表现更好。作者提出了一个核心问题：参数空间的基底选择到底如何影响 Adam 的性能？ 以及 现有的旋转依赖假设能否解释这些影响？

此外，近期 SOAP 和 Muon 等优化器通过在旋转后的参数空间中优化取得了实际提升，但这些旋转的设计更多依赖直觉而非系统理论，进一步凸显了理解旋转与 Adam 关系的必要性。

方法详解¶

整体框架¶

本文的方法论核心不是提出新算法，而是设计了一套系统的实验框架来研究 Adam 在旋转参数空间中的行为。具体来说，训练时仍在标准基底中进行前向和反向传播，但将梯度旋转到目标空间后让 Adam 更新，再将更新旋转回标准空间应用于参数。

关键设计¶

多尺度旋转范围研究: 作者定义了四种不同范围的随机旋转——全局旋转（整个参数空间）、层级旋转（每层子空间内）、输入端旋转（同一输入神经元的权重）和输出端旋转（同一输出神经元的权重）。实验发现旋转范围越广，Adam 性能下降越严重。对 GPT-2(124M)，全局旋转导致 16% 的训练减速；对 ViT/S(22M)，减速高达 96%。而输出端旋转几乎不影响甚至略微提升性能，说明 Adam 在输出神经元内的自适应性较弱。
SVD 结构化旋转: 受 GaLore 启发，作者将每层梯度矩阵 \(\mathbf{G}\) 做 SVD 分解 \(\mathbf{G} = \mathbf{U}\mathbf{S}\mathbf{V}^\top\)，并在 \(\mathbf{U}^\top \mathbf{G} \mathbf{V}\) 旋转空间中运行 Adam。结果表明，这种结构化旋转不仅不损害性能，反而显著提升了 GPT-2 的训练效果，证明存在比标准基底更优的坐标系。
层更新正交性指标: 为了找到一个能预测 Adam 性能的旋转依赖量，作者测量了每层权重更新 \(\mathbf{A} = \mathbf{R}^\top \mathbf{M}_t^{(\mathbf{R})} / (\sqrt{\mathbf{V}_t^{(\mathbf{R})}} + \epsilon)\) 的奇异值变异系数（CV）。CV 越小意味着更新越接近缩放正交矩阵。实验发现 CV 与 Adam 性能高度一致：SVD 旋转 → 最低 CV → 最佳性能；全局随机旋转 → 最高 CV → 最差性能。

现有旋转依赖假设的检验¶

作者系统检验了三类文献中使用的旋转依赖假设：

\(L_\infty\) 梯度有界: 在全局旋转下 \(\tilde{C}\) 显著减小（预示更好性能），但 Adam 性能实际下降，说明这一假设方向相反。
Hessian 块对角性: 虽然标准基底下 Hessian 确实呈近似块对角结构，但量化分析发现对角块外的元素虽然数值小，却因维度更高在梯度变化中起主导作用，严格块对角近似是过度简化。
\((1,1)\)-范数 / \(L_\infty\) 光滑性: 在全局和 SVD 旋转下与性能相关，但在输出端旋转下失效（性能略有提升但范数下降），说明不完全可靠。

实验关键数据¶

主实验¶

模型	旋转类型	训练减速	性能变化
GPT-2 (124M)	全局旋转	~16%	显著下降
GPT-2 (124M)	层级旋转	~8%	中等下降
GPT-2 (124M)	输出端旋转	~0%	略有提升
GPT-2 (124M)	SVD旋转	—	显著提升
ViT/S (22M)	全局旋转	~96%	严重下降
ViT/S (22M)	输出端旋转	~0%	无变化
ResNet-50	全局旋转	极小	几乎无影响

消融实验¶

度量指标	全局旋转	SVD旋转	输出端旋转	与Adam性能一致性
\(L_\infty\) 梯度界	减小(↓)	—	—	❌ 不一致
\((1,1)\)-范数	增大(↑)	减小(↓)	增大(↑)	⚠️ 部分一致
更新正交性 CV	高(差)	低(好)	中(正常)	✅ 完全一致

关键发现¶

ResNet 对旋转不敏感，这可能解释了 SGD 在 ResNet 上并不逊色于 Adam 的现象。
全局旋转使 Adam 的二阶矩分布更集中，意味着有效学习率差异减小、自适应性减弱。
SVD 旋转每 250 步更新一次就能带来可观提升，且在更新时刻 CV 出现明显下降。
不同参数block类型对旋转的敏感度不同，Appendix C 进一步分析了 Transformer 中 K/Q/V 投影层的独立影响。

亮点与洞察¶

核心发现极具启发性: 将 Adam 性能与基底选择的关系系统化，揭示了一个被忽视的重要维度。
正交性指标与 Muon 优化器呼应: Muon 通过近似正交化梯度更新取得优异性能，本文从 Adam 的角度提供了额外的支持证据。
实验设计精巧: 四种不同尺度的旋转形成了从局部到全局的连续谱，系统性很强。

局限与展望¶

本文主要是实验性工作，缺乏为什么正交性更新更好的严格理论分析。
SVD 旋转的目的是提供洞察而非实用优化器，其计算开销限制了直接应用。
未能解释 Adam 在 SVD 旋转下为何产生更正交的更新。
ResNet 上旋转敏感性低的原因需要更多证据确认。

评分¶

新颖性: ⭐⭐⭐⭐ 系统研究Adam与坐标基底的关系，角度新颖
实验充分度: ⭐⭐⭐⭐⭐ 多模型、多旋转类型、多假设检验，实验非常全面
写作质量: ⭐⭐⭐⭐ 叙述清晰，图表丰富，结论有说服力
价值: ⭐⭐⭐⭐ 为理解和改进自适应优化器提供重要实验基础