ANO: Faster is Better in Noisy Landscapes¶
会议: ICLR 2026
arXiv: 2508.18258
代码: 有
领域: 优化
关键词: optimizer, sign-based, noise robustness, reinforcement learning, direction-magnitude decoupling
一句话总结¶
提出 Ano 优化器,将更新方向和幅度解耦——方向用动量的符号(sign)确保噪声鲁棒,幅度用瞬时梯度绝对值(而非动量幅度)确保响应速度,配合改进的 Yogi 式方差估计,在噪声和非平稳环境(如 RL)中显著优于 Adam/Lion/Adan,同时在标准任务上保持竞争力。
研究背景与动机¶
- 领域现状:Adam 及其变体是深度学习的默认优化器,但在噪声或非平稳环境中(梯度噪声大、标签模糊、RL 目标变化)表现退化。
- 现有痛点:Adam 将方向和幅度都从动量 \(m_k\) 中获取——当大噪声尖峰出现时,相反方向的影响部分抵消,减小了有效动量,导致更新过于保守。二阶矩的指数移动平均让噪声尖峰影响持续很多步。
- 核心矛盾:动量平滑方向信号很好(减少噪声方向的震荡),但动量的幅度太滞后——大梯度变化时响应太慢。需要"方向稳定+幅度敏捷"的组合。
- 本文要解决什么? 设计在噪声优化环境中更鲁棒的优化器,同时保持一阶方法的简洁和效率。
- 切入角度:显式解耦方向和幅度——方向 = sign(momentum),幅度 = |gradient|,二阶矩用改进的 Yogi 更新(带衰减因子控制记忆)。
- 核心idea一句话:用动量的符号定方向、用当前梯度的绝对值定步长——解耦带来噪声鲁棒性和响应速度的最佳平衡。
方法详解¶
整体框架¶
Ano 的更新规则:\(x_{k+1} = x_k - \frac{\eta_k}{\sqrt{\hat{v}_k} + \epsilon} \cdot |g_k| \cdot \text{sign}(m_k) - \eta_k \lambda x_k\)。关键差异在于 \(|g_k| \cdot \text{sign}(m_k)\) 替代了 Adam 的 \(m_k\)。
关键设计¶
- Sign-Magnitude Decoupling:
- 做什么:方向来自动量符号 \(\text{sign}(m_k)\),幅度来自瞬时梯度 \(|g_k|\)
- vs Adam:Adam 用 \(m_k = |m_k| \cdot \text{sign}(m_k)\),即方向和幅度都来自动量。大噪声时 \(|m_k|\) 被平均拉低(方向震荡导致抵消),更新变慢
-
vs SignSGD/Lion:纯 sign 方法丢失了幅度信息。Ano 保留了幅度但用更灵敏的 \(|g_k|\) 而非滞后的 \(|m_k|\)
-
改进的二阶矩更新:
- 公式:\(v_k = \beta_2 v_{k-1} - (1-\beta_2) \cdot \text{sign}(v_{k-1} - g_k^2) \cdot g_k^2\)
- 继承 Yogi 的非对称更新(快速恢复),加入 \(\beta_2\) 衰减控制记忆长度
-
设计动机:Adam 的 EMA 让方差尖峰影响太久,Yogi 恢复快但缺乏衰减。加衰减 = 既快速恢复又平滑遗忘
-
Anolog 变体(自适应 β₁):
- \(\beta_{1,k} = 1 - 1/\log(k+2)\)——对数调度逐步增大动量窗口
- 消除了 \(\beta_1\) 超参数调优的需求
- 比根号或调和调度更温和——保持非平稳环境中的适应性
损失函数 / 训练策略¶
与 Adam 同样的内存和计算成本(维护 \(m_k, v_k\))。默认 \(\beta_1=0.92, \beta_2=0.99\)。
实验关键数据¶
噪声鲁棒性(CIFAR-10 + 梯度噪声注入)¶
| 优化器 | σ=0 | σ=0.05 | σ=0.10 | σ=0.20 |
|---|---|---|---|---|
| Ano | 82.10 | 70.88 | 65.93 | 59.54 |
| Adam | 80.67 | 66.86 | 60.83 | 52.46 |
| Lion | 81.04 | 69.62 | 64.02 | 56.82 |
关键发现¶
- Ano vs Adam 的优势随噪声增大而扩大:σ=0 时差 1.4%,σ=0.20 时差 7.1%
- 在 RL 任务(非平稳目标)上 Ano 提升最为显著——因为 RL 的梯度本质上是高方差+非平稳的
- Anolog 牺牲少量峰值性能但消除了 β₁ 调参——实用价值高
- 标准低噪声任务(如标准 ImageNet 训练)上 Ano 与 Adam 竞争力相当
理论保证¶
- 非凸收敛率 \(\tilde{O}(K^{-1/4})\),匹配 Lion/Signum 等 sign-based 方法
- 比 SGD/Adam 的 \(O(K^{-1/2})\) 慢,但这是 sign 方法的固有限制
亮点与洞察¶
- "方向用动量,幅度用当前梯度"的解耦思路:简单直观且有效。对 Adam 的改动最小化但效果显著
- 对 RL 优化的特别意义:RL 梯度的高方差和非平稳性是 Adam 家族的痛点,Ano 的解耦设计天然更适合
- 与 DRPO 互补:DRPO 解决 GRPO 的奖励设计问题,Ano 解决优化器本身的噪声问题——两者可以结合
局限性 / 可改进方向¶
- 理论收敛率比 Adam 慢(\(K^{-1/4}\) vs \(K^{-1/2}\)),虽然实际中噪声场景下 Ano 更快收敛
- 在极低噪声环境中没有明显优势——此时 Adam 的平滑更新反而更好
- 仅验证了 CNN 和 RL 任务,LLM 大规模训练上的表现未知
- β₂ 的改进的 Yogi 更新增加了理论分析的复杂性
相关工作与启发¶
- vs Adam: Ano 解耦方向和幅度解决了 Adam 在噪声环境中的保守性
- vs Lion: Lion 纯 sign 丢失幅度信息,Ano 保留了幅度(用 |g_k|)
- vs Grams: Grams 用梯度 sign 定方向 + 动量 norm 定幅度,Ano 反过来——动量 sign 定方向 + 梯度 norm 定幅度
评分¶
- 新颖性: ⭐⭐⭐⭐ 解耦方向/幅度的设计简洁有效
- 实验充分度: ⭐⭐⭐⭐ 噪声注入实验有说服力,RL 实验验证核心场景
- 写作质量: ⭐⭐⭐⭐ 算法描述清晰,理论分析完整
- 价值: ⭐⭐⭐⭐ 为噪声优化环境提供了实用的替代优化器