跳转至

ANO: Faster is Better in Noisy Landscapes

会议: ICLR 2026
arXiv: 2508.18258
代码: 有
领域: 优化
关键词: optimizer, sign-based, noise robustness, reinforcement learning, direction-magnitude decoupling

一句话总结

提出 Ano 优化器,将更新方向和幅度解耦——方向用动量的符号(sign)确保噪声鲁棒,幅度用瞬时梯度绝对值(而非动量幅度)确保响应速度,配合改进的 Yogi 式方差估计,在噪声和非平稳环境(如 RL)中显著优于 Adam/Lion/Adan,同时在标准任务上保持竞争力。

研究背景与动机

  1. 领域现状:Adam 及其变体是深度学习的默认优化器,但在噪声或非平稳环境中(梯度噪声大、标签模糊、RL 目标变化)表现退化。
  2. 现有痛点:Adam 将方向和幅度都从动量 \(m_k\) 中获取——当大噪声尖峰出现时,相反方向的影响部分抵消,减小了有效动量,导致更新过于保守。二阶矩的指数移动平均让噪声尖峰影响持续很多步。
  3. 核心矛盾:动量平滑方向信号很好(减少噪声方向的震荡),但动量的幅度太滞后——大梯度变化时响应太慢。需要"方向稳定+幅度敏捷"的组合。
  4. 本文要解决什么? 设计在噪声优化环境中更鲁棒的优化器,同时保持一阶方法的简洁和效率。
  5. 切入角度:显式解耦方向和幅度——方向 = sign(momentum),幅度 = |gradient|,二阶矩用改进的 Yogi 更新(带衰减因子控制记忆)。
  6. 核心idea一句话:用动量的符号定方向、用当前梯度的绝对值定步长——解耦带来噪声鲁棒性和响应速度的最佳平衡。

方法详解

整体框架

Ano 的更新规则:\(x_{k+1} = x_k - \frac{\eta_k}{\sqrt{\hat{v}_k} + \epsilon} \cdot |g_k| \cdot \text{sign}(m_k) - \eta_k \lambda x_k\)。关键差异在于 \(|g_k| \cdot \text{sign}(m_k)\) 替代了 Adam 的 \(m_k\)

关键设计

  1. Sign-Magnitude Decoupling:
  2. 做什么:方向来自动量符号 \(\text{sign}(m_k)\),幅度来自瞬时梯度 \(|g_k|\)
  3. vs Adam:Adam 用 \(m_k = |m_k| \cdot \text{sign}(m_k)\),即方向和幅度都来自动量。大噪声时 \(|m_k|\) 被平均拉低(方向震荡导致抵消),更新变慢
  4. vs SignSGD/Lion:纯 sign 方法丢失了幅度信息。Ano 保留了幅度但用更灵敏的 \(|g_k|\) 而非滞后的 \(|m_k|\)

  5. 改进的二阶矩更新:

  6. 公式:\(v_k = \beta_2 v_{k-1} - (1-\beta_2) \cdot \text{sign}(v_{k-1} - g_k^2) \cdot g_k^2\)
  7. 继承 Yogi 的非对称更新(快速恢复),加入 \(\beta_2\) 衰减控制记忆长度
  8. 设计动机:Adam 的 EMA 让方差尖峰影响太久,Yogi 恢复快但缺乏衰减。加衰减 = 既快速恢复又平滑遗忘

  9. Anolog 变体(自适应 β₁):

  10. \(\beta_{1,k} = 1 - 1/\log(k+2)\)——对数调度逐步增大动量窗口
  11. 消除了 \(\beta_1\) 超参数调优的需求
  12. 比根号或调和调度更温和——保持非平稳环境中的适应性

损失函数 / 训练策略

与 Adam 同样的内存和计算成本(维护 \(m_k, v_k\))。默认 \(\beta_1=0.92, \beta_2=0.99\)

实验关键数据

噪声鲁棒性(CIFAR-10 + 梯度噪声注入)

优化器 σ=0 σ=0.05 σ=0.10 σ=0.20
Ano 82.10 70.88 65.93 59.54
Adam 80.67 66.86 60.83 52.46
Lion 81.04 69.62 64.02 56.82

关键发现

  • Ano vs Adam 的优势随噪声增大而扩大:σ=0 时差 1.4%,σ=0.20 时差 7.1%
  • 在 RL 任务(非平稳目标)上 Ano 提升最为显著——因为 RL 的梯度本质上是高方差+非平稳的
  • Anolog 牺牲少量峰值性能但消除了 β₁ 调参——实用价值高
  • 标准低噪声任务(如标准 ImageNet 训练)上 Ano 与 Adam 竞争力相当

理论保证

  • 非凸收敛率 \(\tilde{O}(K^{-1/4})\),匹配 Lion/Signum 等 sign-based 方法
  • 比 SGD/Adam 的 \(O(K^{-1/2})\) 慢,但这是 sign 方法的固有限制

亮点与洞察

  • "方向用动量,幅度用当前梯度"的解耦思路:简单直观且有效。对 Adam 的改动最小化但效果显著
  • 对 RL 优化的特别意义:RL 梯度的高方差和非平稳性是 Adam 家族的痛点,Ano 的解耦设计天然更适合
  • 与 DRPO 互补:DRPO 解决 GRPO 的奖励设计问题,Ano 解决优化器本身的噪声问题——两者可以结合

局限性 / 可改进方向

  • 理论收敛率比 Adam 慢(\(K^{-1/4}\) vs \(K^{-1/2}\)),虽然实际中噪声场景下 Ano 更快收敛
  • 在极低噪声环境中没有明显优势——此时 Adam 的平滑更新反而更好
  • 仅验证了 CNN 和 RL 任务,LLM 大规模训练上的表现未知
  • β₂ 的改进的 Yogi 更新增加了理论分析的复杂性

相关工作与启发

  • vs Adam: Ano 解耦方向和幅度解决了 Adam 在噪声环境中的保守性
  • vs Lion: Lion 纯 sign 丢失幅度信息,Ano 保留了幅度(用 |g_k|)
  • vs Grams: Grams 用梯度 sign 定方向 + 动量 norm 定幅度,Ano 反过来——动量 sign 定方向 + 梯度 norm 定幅度

评分

  • 新颖性: ⭐⭐⭐⭐ 解耦方向/幅度的设计简洁有效
  • 实验充分度: ⭐⭐⭐⭐ 噪声注入实验有说服力,RL 实验验证核心场景
  • 写作质量: ⭐⭐⭐⭐ 算法描述清晰,理论分析完整
  • 价值: ⭐⭐⭐⭐ 为噪声优化环境提供了实用的替代优化器