跳转至

A Regularized Newton Method for Nonconvex Optimization with Global and Local Complexity Guarantees

会议: NeurIPS 2025
arXiv: 2502.04799
代码: 无公开代码(MATLAB实现,实验基于CUTEst benchmark)
领域: 优化理论 / 非凸优化 / 二阶方法
关键词: 正则化Newton方法, 非凸优化, 最优全局复杂度, 二次局部收敛, 自适应算法

一句话总结

提出一类基于当前与历史梯度构造的新型正则化器,结合带负曲率监测的共轭梯度法求解正则化Newton方程,在不需要Hessian Lipschitz常数先验知识的自适应框架下,首次同时实现了\(O(\epsilon^{-3/2})\)最优全局迭代复杂度和二次局部收敛速率。

背景与动机

非凸优化中寻找\(\epsilon\)-稳定点(\(\|\nabla\varphi(x^*)\|\leq\epsilon\))是核心问题。Newton类方法因其在正定Hessian解附近的二次局部收敛性而强大,但经典Newton法无法保证全局收敛。为此发展了多种全局化技术:

  • 三次正则化(Nesterov & Polyak 2006):达到最优\(O(\epsilon^{-3/2})\)迭代复杂度且保留二次局部收敛率,但子问题比二次正则化更难求解
  • 二次正则化(Levenberg-Marquardt):子问题等价于求解线性方程组,可用共轭梯度法高效实现,适合大规模问题
  • 信赖域方法:如CAT(Hamad & Hinder 2024)同时达到了最优全局阶和二次局部收敛率,但内存开销大

二次正则化方法存在一个长期的全局-局部权衡问题:使用\(\rho_k\propto\|g_k\|^{1/2}\)可获得最优全局复杂度但局部收敛阶仅为\(3/2\);使用\(\rho_k\propto\|g_k\|\)可获得二次局部收敛但全局率不明确。之前的工作(如Gratton et al. 2024)达到了近最优的\(O(\epsilon^{-3/2}\log(1/\epsilon))\)全局率和超线性局部率,但二者无法同时最优。这篇论文的核心动机就是弥合这一鸿沟

核心问题

能否设计一种无参数的二次正则化Newton方法,同时达到: 1. 最优全局迭代复杂度\(O(\epsilon^{-3/2})\)(不含对数因子) 2. 二次局部收敛率 3. 不需要Hessian Lipschitz常数\(L_H\)的先验知识 4. 不需要计算最小特征值

方法详解

整体框架

算法名为ARNCG(Adaptive Regularized Newton-CG),其pipeline如下:

输入:初始点\(x_0\),参数\(\mu,\beta,\tau_-,\tau_+,\gamma,m_{\max},M_0\)以及正则化器序列\(\{\omega_k^t, \omega_k^f\}\)

每次迭代包含三个层次: 1. 主循环:用试探步正则化器\(\omega_k^t\)调用NewtonStep,如果梯度突然上升则切换到回退步正则化器\(\omega_k^f\) 2. NewtonStep子程序:调用CappedCG求解正则化Newton方程\((H+2\rho I)d=-g\),根据返回类型(SOL/NC/TERM)执行不同的线搜索策略 3. CappedCG子程序:标准共轭梯度法+负曲率监测,总共只需一次额外Hessian向量积

输出\(\epsilon\)-稳定点\(x^*\)满足\(\|\nabla\varphi(x^*)\|\leq\epsilon\)

关键设计

  1. 新型正则化器构造:论文提出两类正则化器,通过引入一个额外参数\(\theta>0\)和比率\(\delta_k\)来调节全局-局部权衡:
  2. 第一类\(\omega_k^f=\|g_k\|^{1/2}\)\(\omega_k^t=\omega_k^f\cdot\min(1, (g_k/g_{k-1})^\theta)\)
  3. 第二类\(\omega_k^f=\epsilon_k^{1/2}\)(其中\(\epsilon_k=\min_{i\leq k}\|g_i\|\)),\(\omega_k^t=\omega_k^f\cdot(\epsilon_k/\epsilon_{k-1})^\theta\)

关键洞察:当\(\theta=0\)时退化为经典的梯度平方根正则化(局部阶\(3/2\));当\(\theta>0\)时,额外项\(\delta_k^\theta\)在迭代开始超线性收敛时快速趋零,逐步将局部收敛率从\(3/2\)提升到接近\(2\);当\(\theta>1\)时达到完整的二次收敛。

  1. 带负曲率监测的Capped CG:基于Royer et al. (2020)的算法,输出三种状态:
  2. SOL:找到了正则化Newton方程的近似解
  3. NC:发现了负曲率方向\(d^T H d \leq -\rho\|d\|^2\)
  4. TERM:正则化参数太小导致迭代次数过多,提前终止

每次CG迭代只需一次Hessian向量积,且整个CG过程负曲率监测只引入一次额外的Hessian向量积。

  1. 自适应Lipschitz常数估计:参数\(M_k\)自适应估计\(L_H\),通过线搜索的成功/失败来调节:
  2. 成功且下降充分→减小\(M_k\)\(\mathcal{J}_{-1}\)集合)
  3. 成功且下降适中→保持\(M_k\)\(\mathcal{J}_0\)集合)
  4. 失败→增大\(M_k\)\(\mathcal{J}_1\)集合)

经过\(O(\log(M_0/L_H))\)次迭代后,\(M_k\)稳定在\(O(L_H)\)水平。

  1. 双线搜索策略:对SOL情况,先尝试标准的Armijo线搜索(判据2.4),若失败则切换到步长缩放的第二线搜索(判据2.5),确保函数评估次数均匀有界。

  2. 回退步机制:当试探步导致梯度突然上升(\(g_{k+1/2}>g_k\)\(g_k\leq g_{k-1}\))时,切换到使用\(\omega_k^f\)的回退步。这保证了子序列间转换引理(Lemma 3.2)的成立。实验表明回退步在实际中很少触发,可以放松或移除。

损失函数 / 训练策略

  • 正则化系数\(\rho_k=(M_k\cdot\omega_k)^{1/2}\),其中\(\omega_k\)根据试探/回退步选取
  • CG求解精度\(\xi=\rho_k=M_k^{1/2}\omega_k\)(随迭代自适应变化)
  • 实验推荐参数:\(\mu=0.3\), \(\beta=0.5\), \(\tau_-=0.3\), \(\tau_+=1.0\), \(\gamma=5\), \(M_0=1\), \(\eta=0.01\), \(\theta\in[0.5,1]\), \(m_{\max}=1\)

实验关键数据

在CUTEst benchmark的124个超过100变量的无约束优化问题上测试(变量维度100-123200),与CAT(信赖域方法)和AN2CER(正则化Newton方法)对比:

指标 ARNCG g ARNCG ε CAT AN2CER
成功率(%) 87.10 86.29 85.48 81.45
时间(shifted geo-mean) 16.71 18.28 23.34 36.70
Hessian评估 80.86 85.03 88.47 170.10
梯度评估 86.41 90.78 96.61 172.02
函数评估 119.51 125.29 125.56 176.80
内存(最大问题) ~6GB ~6GB ~74GB -

消融实验要点

  • 回退步参数\(\lambda\):对成功率影响微弱,但\(\lambda\)越大回退步触发越频繁、计算成本越高。推荐\(\lambda=0\)(移除回退步)
  • 正则化参数\(\theta\)\(\theta\in[0.5,1]\)是最佳区间,平衡计算效率和局部收敛速度。\(\theta\)过大会要求CG更严格的容差关系,增加Hessian向量积
  • 线搜索参数\(m_{\max}\)\(m_{\max}=1\)即可(每次迭代至多4次函数评估),增大\(m_{\max}\)不会带来显著收益
  • 第二线搜索和TERM状态:在实践中很少被触发
  • 两类正则化器对比:虽然ARNCG g理论上多一个双对数因子,但实践中表现相当甚至略好

亮点

  • 理论突破:首次证明二次正则化Newton方法可以同时达到最优\(O(\epsilon^{-3/2})\)全局迭代复杂度和二次局部收敛率,填补了该领域长期存在的理论空白
  • 局部收敛率提升技巧(Lemma 3.9):通过递归论证展示\(\delta_k^\theta\)如何逐步将局部阶从\(3/2\)提升到\(2\),这是一个非常优雅的分析方法。\(\theta\in(0,1]\)时可达到\(1+\nu_\infty\)阶(\(\nu_\infty\)为特定方程的正根),\(\theta>1\)时经过有限步后达到严格二次
  • 实用性:无需Hessian Lipschitz常数的先验知识,无需最小特征值计算,每次CG迭代仅需一次Hessian向量积,大规模问题下内存效率远优于基于矩阵分解的方法(6GB vs 74GB)
  • \(\omega_k^f=\epsilon_k\)的选择消除了\(\log\log(1/\epsilon)\)对数因子,其关键在于\(\epsilon_k\)的单调性使得\(V_k\)的控制更精细

局限性 / 可改进方向

  • 实验规模有限:仅在CUTEst benchmark上测试,虽有PINN实验但深度学习中的大规模应用仍待验证
  • Hölder连续Hessian推广:论文指出技术可推广到Hölder连续Hessian的情形,但由于Hölder指数未知需要额外估计,尚未完成
  • 凸情形:是否适用于Doikov & Nesterov (2021)等研究的凸设置仍是开放问题
  • 随机优化:能否推广到不精确方法(如Yao et al. 2023)和随机优化设置
  • 回退步的必要性:实验表明回退步在实践中几乎不触发,理论上是否可以完全移除值得进一步研究
  • CG精度的自适应策略:当前CG精度\(\xi=\rho_k\)是为局部收敛设计的,全局阶段可以使用更宽松的固定容差\(\eta\)以减少计算量

与相关工作的对比

方法 全局复杂度 局部收敛率 需要\(\epsilon\) 需要最小特征值
Royer et al. 2020 \(O(\epsilon^{-3/2})\) N/A
Gratton et al. 2024 (AN2CER) \(O(\epsilon^{-3/2}\log(1/\epsilon))\) N/A
Zhu & Xiao 2024 \(O(\epsilon^{-3/2})\) 超线性(需全局强凸)
CAT (Hamad & Hinder 2024) \(O(\epsilon^{-3/2})\) 二次
本文 ARNCG \(O(\epsilon^{-3/2})+\tilde{O}(1)\) 二次(\(\theta>1\)时)

与CAT相比,ARNCG使用更少内存(避免构造完整Hessian),且在CUTEst上速度略快。与AN2CER相比,ARNCG无需最小特征值计算,全局复杂度无对数因子。

启发与关联

  • 正则化器中利用历史信息(\(g_{k-1}\))来"提升"局部收敛率的思想,是否可以类比到深度学习优化器(如Adam的动量项)中,设计同时具有好的全局和局部收敛性质的自适应方法?
  • 论文中将迭代序列按梯度范数单调性分段分析的技巧(subsequence partition),在分析其他自适应优化算法时可能有用
  • Hessian向量积的高效利用对于大规模问题(如PINN训练)很实用,可作为二阶优化方法在科学计算中的baseline

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次解决了二次正则化Newton法全局-局部复杂度权衡的开放问题
  • 实验充分度: ⭐⭐⭐⭐ CUTEst benchmark全面对比,但实际ML应用的验证偏少
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,结构清晰,关键insight解释到位
  • 价值: ⭐⭐⭐⭐⭐ 填补了重要的理论空白,算法设计优雅且实用