ANO: Faster is Better in Noisy Landscapes¶

会议: ICLR 2026
arXiv: 2508.18258
代码: 有
领域: 优化
关键词: optimizer, sign-based, noise robustness, reinforcement learning, direction-magnitude decoupling

一句话总结¶

提出 Ano 优化器，将更新方向和幅度解耦——方向用动量的符号（sign）确保噪声鲁棒，幅度用瞬时梯度绝对值（而非动量幅度）确保响应速度，配合改进的 Yogi 式方差估计，在噪声和非平稳环境（如 RL）中显著优于 Adam/Lion/Adan，同时在标准任务上保持竞争力。

研究背景与动机¶

领域现状：Adam 及其变体是深度学习的默认优化器，但在噪声或非平稳环境中（梯度噪声大、标签模糊、RL 目标变化）表现退化。
现有痛点：Adam 将方向和幅度都从动量 \(m_k\) 中获取——当大噪声尖峰出现时，相反方向的影响部分抵消，减小了有效动量，导致更新过于保守。二阶矩的指数移动平均让噪声尖峰影响持续很多步。
核心矛盾：动量平滑方向信号很好（减少噪声方向的震荡），但动量的幅度太滞后——大梯度变化时响应太慢。需要"方向稳定+幅度敏捷"的组合。
本文要解决什么？ 设计在噪声优化环境中更鲁棒的优化器，同时保持一阶方法的简洁和效率。
切入角度：显式解耦方向和幅度——方向 = sign(momentum)，幅度 = |gradient|，二阶矩用改进的 Yogi 更新（带衰减因子控制记忆）。
核心idea一句话：用动量的符号定方向、用当前梯度的绝对值定步长——解耦带来噪声鲁棒性和响应速度的最佳平衡。

方法详解¶

整体框架¶

Ano 的更新规则：\(x_{k+1} = x_k - \frac{\eta_k}{\sqrt{\hat{v}_k} + \epsilon} \cdot |g_k| \cdot \text{sign}(m_k) - \eta_k \lambda x_k\)。关键差异在于 \(|g_k| \cdot \text{sign}(m_k)\) 替代了 Adam 的 \(m_k\)。

关键设计¶

Sign-Magnitude Decoupling:
做什么：方向来自动量符号 \(\text{sign}(m_k)\)，幅度来自瞬时梯度 \(|g_k|\)
vs Adam：Adam 用 \(m_k = |m_k| \cdot \text{sign}(m_k)\)，即方向和幅度都来自动量。大噪声时 \(|m_k|\) 被平均拉低（方向震荡导致抵消），更新变慢
vs SignSGD/Lion：纯 sign 方法丢失了幅度信息。Ano 保留了幅度但用更灵敏的 \(|g_k|\) 而非滞后的 \(|m_k|\)
改进的二阶矩更新:
公式：\(v_k = \beta_2 v_{k-1} - (1-\beta_2) \cdot \text{sign}(v_{k-1} - g_k^2) \cdot g_k^2\)
继承 Yogi 的非对称更新（快速恢复），加入 \(\beta_2\) 衰减控制记忆长度
设计动机：Adam 的 EMA 让方差尖峰影响太久，Yogi 恢复快但缺乏衰减。加衰减 = 既快速恢复又平滑遗忘
Anolog 变体（自适应 β₁）:
\(\beta_{1,k} = 1 - 1/\log(k+2)\)——对数调度逐步增大动量窗口
消除了 \(\beta_1\) 超参数调优的需求
比根号或调和调度更温和——保持非平稳环境中的适应性

损失函数 / 训练策略¶

与 Adam 同样的内存和计算成本（维护 \(m_k, v_k\)）。默认 \(\beta_1=0.92, \beta_2=0.99\)。

实验关键数据¶

噪声鲁棒性（CIFAR-10 + 梯度噪声注入）¶

优化器	σ=0	σ=0.05	σ=0.10	σ=0.20
Ano	82.10	70.88	65.93	59.54
Adam	80.67	66.86	60.83	52.46
Lion	81.04	69.62	64.02	56.82

关键发现¶

Ano vs Adam 的优势随噪声增大而扩大：σ=0 时差 1.4%，σ=0.20 时差 7.1%
在 RL 任务（非平稳目标）上 Ano 提升最为显著——因为 RL 的梯度本质上是高方差+非平稳的
Anolog 牺牲少量峰值性能但消除了 β₁ 调参——实用价值高
标准低噪声任务（如标准 ImageNet 训练）上 Ano 与 Adam 竞争力相当

理论保证¶

非凸收敛率 \(\tilde{O}(K^{-1/4})\)，匹配 Lion/Signum 等 sign-based 方法
比 SGD/Adam 的 \(O(K^{-1/2})\) 慢，但这是 sign 方法的固有限制

亮点与洞察¶

"方向用动量，幅度用当前梯度"的解耦思路：简单直观且有效。对 Adam 的改动最小化但效果显著
对 RL 优化的特别意义：RL 梯度的高方差和非平稳性是 Adam 家族的痛点，Ano 的解耦设计天然更适合
与 DRPO 互补：DRPO 解决 GRPO 的奖励设计问题，Ano 解决优化器本身的噪声问题——两者可以结合

局限性 / 可改进方向¶

理论收敛率比 Adam 慢（\(K^{-1/4}\) vs \(K^{-1/2}\)），虽然实际中噪声场景下 Ano 更快收敛
在极低噪声环境中没有明显优势——此时 Adam 的平滑更新反而更好
仅验证了 CNN 和 RL 任务，LLM 大规模训练上的表现未知
β₂ 的改进的 Yogi 更新增加了理论分析的复杂性

评分¶

新颖性: ⭐⭐⭐⭐ 解耦方向/幅度的设计简洁有效
实验充分度: ⭐⭐⭐⭐ 噪声注入实验有说服力，RL 实验验证核心场景
写作质量: ⭐⭐⭐⭐ 算法描述清晰，理论分析完整
价值: ⭐⭐⭐⭐ 为噪声优化环境提供了实用的替代优化器