跳转至

Adaptive Algorithms with Sharp Convergence Rates for Stochastic Hierarchical Optimization

会议: NeurIPS 2025
arXiv: 2509.15399
代码: 无
领域: 优化理论 / 层次化优化
关键词: minimax optimization, bilevel optimization, adaptive algorithm, convergence rate, stochastic gradient noise

一句话总结

首次为随机层次化优化(极小极大和双层优化)提供自适应且sharp的收敛保证,通过动量归一化技术和新型自适应参数选择,在无需事先知道噪声大小的情况下实现最优收敛率Õ(1/√T + √σ̄/T^{1/4})。

背景与动机

层次化优化(minimax和bilevel)是机器学习中的核心问题形式——对抗训练、元学习、超参数优化等都可以建模为此类问题。现有方法虽然有理论保证,但都需要预先知道随机梯度噪声的大小来设定步长等参数。当噪声水平未知或在训练过程中变化时,这些方法无法自动适应,导致实际收敛率远非最优。

核心问题

如何设计不需要预先知道梯度噪声大小σ̄的自适应优化算法,同时在非凸-强凹极小极大和非凸-强凸双层优化中都能达到sharp(最优)的收敛率?

方法详解

整体框架

结合动量归一化(momentum normalization)与新型自适应参数选择策略,使算法能够根据在线观测到的梯度信息自动调整步长,在不依赖先验噪声知识的前提下达到理论最优收敛速度。

关键设计

  1. 动量归一化技术:对梯度的动量估计进行归一化处理,使步长自动适应当前梯度噪声水平
  2. 自适应参数选择:不使用固定的学习率/步长,而是根据在线梯度统计量动态调整
  3. 双问题覆盖:同一框架同时处理minimax和bilevel两类层次化优化问题
  4. Sharp收敛率:达到Õ(1/√T + √σ̄/T^{1/4}),匹配已知的理论下界

实验关键数据

  • 在合成任务和深度学习任务上验证
  • 在低噪声和高噪声两种regime下均表现有效
  • 具体数值结果需要全文查看

消融实验要点

  • 不同噪声水平下的自适应性验证
  • 与非自适应方法在不同噪声regime下的对比

亮点

  • 理论首创性:首个为随机层次化优化提供自适应+sharp收敛保证的工作
  • 实用价值:消除了调参时对噪声水平先验知识的依赖
  • 广覆盖:minimax和bilevel两类重要问题同时解决
  • 理论最优:收敛率匹配下界,是sharp的

局限性 / 可改进方向

  • 主要是理论贡献,大规模实验验证有限
  • 仅考虑非凸-强凹/强凸设定,更一般的非凸-非凸情况待探索

与相关工作的对比

  • vs 非自适应层次化优化算法:这些方法需要σ̄作为输入参数;本工作自动适应
  • vs 自适应单层优化(如Adam):本工作将自适应性扩展到更复杂的层次化优化结构

评分

  • 新颖性: ⭐⭐⭐⭐ 自适应+sharp的理论保证是重要贡献
  • 实验充分度: ⭐⭐⭐ 偏理论,实验规模有限
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨
  • 价值: ⭐⭐⭐⭐ 对优化理论社区有重要意义