A Regularized Newton Method for Nonconvex Optimization with Global and Local Complexity Guarantees¶
会议: NeurIPS 2025
arXiv: 2502.04799
代码: 无公开代码(MATLAB实现,实验基于CUTEst benchmark)
领域: 优化理论 / 非凸优化 / 二阶方法
关键词: 正则化Newton方法, 非凸优化, 最优全局复杂度, 二次局部收敛, 自适应算法
一句话总结¶
提出一类基于当前与历史梯度构造的新型正则化器,结合带负曲率监测的共轭梯度法求解正则化Newton方程,在不需要Hessian Lipschitz常数先验知识的自适应框架下,首次同时实现了\(O(\epsilon^{-3/2})\)最优全局迭代复杂度和二次局部收敛速率。
背景与动机¶
非凸优化中寻找\(\epsilon\)-稳定点(\(\|\nabla\varphi(x^*)\|\leq\epsilon\))是核心问题。Newton类方法因其在正定Hessian解附近的二次局部收敛性而强大,但经典Newton法无法保证全局收敛。为此发展了多种全局化技术:
- 三次正则化(Nesterov & Polyak 2006):达到最优\(O(\epsilon^{-3/2})\)迭代复杂度且保留二次局部收敛率,但子问题比二次正则化更难求解
- 二次正则化(Levenberg-Marquardt):子问题等价于求解线性方程组,可用共轭梯度法高效实现,适合大规模问题
- 信赖域方法:如CAT(Hamad & Hinder 2024)同时达到了最优全局阶和二次局部收敛率,但内存开销大
二次正则化方法存在一个长期的全局-局部权衡问题:使用\(\rho_k\propto\|g_k\|^{1/2}\)可获得最优全局复杂度但局部收敛阶仅为\(3/2\);使用\(\rho_k\propto\|g_k\|\)可获得二次局部收敛但全局率不明确。之前的工作(如Gratton et al. 2024)达到了近最优的\(O(\epsilon^{-3/2}\log(1/\epsilon))\)全局率和超线性局部率,但二者无法同时最优。这篇论文的核心动机就是弥合这一鸿沟。
核心问题¶
能否设计一种无参数的二次正则化Newton方法,同时达到: 1. 最优全局迭代复杂度\(O(\epsilon^{-3/2})\)(不含对数因子) 2. 二次局部收敛率 3. 不需要Hessian Lipschitz常数\(L_H\)的先验知识 4. 不需要计算最小特征值
方法详解¶
整体框架¶
算法名为ARNCG(Adaptive Regularized Newton-CG),其pipeline如下:
输入:初始点\(x_0\),参数\(\mu,\beta,\tau_-,\tau_+,\gamma,m_{\max},M_0\)以及正则化器序列\(\{\omega_k^t, \omega_k^f\}\)
每次迭代包含三个层次: 1. 主循环:用试探步正则化器\(\omega_k^t\)调用NewtonStep,如果梯度突然上升则切换到回退步正则化器\(\omega_k^f\) 2. NewtonStep子程序:调用CappedCG求解正则化Newton方程\((H+2\rho I)d=-g\),根据返回类型(SOL/NC/TERM)执行不同的线搜索策略 3. CappedCG子程序:标准共轭梯度法+负曲率监测,总共只需一次额外Hessian向量积
输出:\(\epsilon\)-稳定点\(x^*\)满足\(\|\nabla\varphi(x^*)\|\leq\epsilon\)
关键设计¶
- 新型正则化器构造:论文提出两类正则化器,通过引入一个额外参数\(\theta>0\)和比率\(\delta_k\)来调节全局-局部权衡:
- 第一类:\(\omega_k^f=\|g_k\|^{1/2}\),\(\omega_k^t=\omega_k^f\cdot\min(1, (g_k/g_{k-1})^\theta)\)
- 第二类:\(\omega_k^f=\epsilon_k^{1/2}\)(其中\(\epsilon_k=\min_{i\leq k}\|g_i\|\)),\(\omega_k^t=\omega_k^f\cdot(\epsilon_k/\epsilon_{k-1})^\theta\)
关键洞察:当\(\theta=0\)时退化为经典的梯度平方根正则化(局部阶\(3/2\));当\(\theta>0\)时,额外项\(\delta_k^\theta\)在迭代开始超线性收敛时快速趋零,逐步将局部收敛率从\(3/2\)提升到接近\(2\);当\(\theta>1\)时达到完整的二次收敛。
- 带负曲率监测的Capped CG:基于Royer et al. (2020)的算法,输出三种状态:
- SOL:找到了正则化Newton方程的近似解
- NC:发现了负曲率方向\(d^T H d \leq -\rho\|d\|^2\)
- TERM:正则化参数太小导致迭代次数过多,提前终止
每次CG迭代只需一次Hessian向量积,且整个CG过程负曲率监测只引入一次额外的Hessian向量积。
- 自适应Lipschitz常数估计:参数\(M_k\)自适应估计\(L_H\),通过线搜索的成功/失败来调节:
- 成功且下降充分→减小\(M_k\)(\(\mathcal{J}_{-1}\)集合)
- 成功且下降适中→保持\(M_k\)(\(\mathcal{J}_0\)集合)
- 失败→增大\(M_k\)(\(\mathcal{J}_1\)集合)
经过\(O(\log(M_0/L_H))\)次迭代后,\(M_k\)稳定在\(O(L_H)\)水平。
-
双线搜索策略:对SOL情况,先尝试标准的Armijo线搜索(判据2.4),若失败则切换到步长缩放的第二线搜索(判据2.5),确保函数评估次数均匀有界。
-
回退步机制:当试探步导致梯度突然上升(\(g_{k+1/2}>g_k\)且\(g_k\leq g_{k-1}\))时,切换到使用\(\omega_k^f\)的回退步。这保证了子序列间转换引理(Lemma 3.2)的成立。实验表明回退步在实际中很少触发,可以放松或移除。
损失函数 / 训练策略¶
- 正则化系数\(\rho_k=(M_k\cdot\omega_k)^{1/2}\),其中\(\omega_k\)根据试探/回退步选取
- CG求解精度\(\xi=\rho_k=M_k^{1/2}\omega_k\)(随迭代自适应变化)
- 实验推荐参数:\(\mu=0.3\), \(\beta=0.5\), \(\tau_-=0.3\), \(\tau_+=1.0\), \(\gamma=5\), \(M_0=1\), \(\eta=0.01\), \(\theta\in[0.5,1]\), \(m_{\max}=1\)
实验关键数据¶
在CUTEst benchmark的124个超过100变量的无约束优化问题上测试(变量维度100-123200),与CAT(信赖域方法)和AN2CER(正则化Newton方法)对比:
| 指标 | ARNCG g | ARNCG ε | CAT | AN2CER |
|---|---|---|---|---|
| 成功率(%) | 87.10 | 86.29 | 85.48 | 81.45 |
| 时间(shifted geo-mean) | 16.71 | 18.28 | 23.34 | 36.70 |
| Hessian评估 | 80.86 | 85.03 | 88.47 | 170.10 |
| 梯度评估 | 86.41 | 90.78 | 96.61 | 172.02 |
| 函数评估 | 119.51 | 125.29 | 125.56 | 176.80 |
| 内存(最大问题) | ~6GB | ~6GB | ~74GB | - |
消融实验要点¶
- 回退步参数\(\lambda\):对成功率影响微弱,但\(\lambda\)越大回退步触发越频繁、计算成本越高。推荐\(\lambda=0\)(移除回退步)
- 正则化参数\(\theta\):\(\theta\in[0.5,1]\)是最佳区间,平衡计算效率和局部收敛速度。\(\theta\)过大会要求CG更严格的容差关系,增加Hessian向量积
- 线搜索参数\(m_{\max}\):\(m_{\max}=1\)即可(每次迭代至多4次函数评估),增大\(m_{\max}\)不会带来显著收益
- 第二线搜索和TERM状态:在实践中很少被触发
- 两类正则化器对比:虽然ARNCG g理论上多一个双对数因子,但实践中表现相当甚至略好
亮点¶
- 理论突破:首次证明二次正则化Newton方法可以同时达到最优\(O(\epsilon^{-3/2})\)全局迭代复杂度和二次局部收敛率,填补了该领域长期存在的理论空白
- 局部收敛率提升技巧(Lemma 3.9):通过递归论证展示\(\delta_k^\theta\)如何逐步将局部阶从\(3/2\)提升到\(2\),这是一个非常优雅的分析方法。\(\theta\in(0,1]\)时可达到\(1+\nu_\infty\)阶(\(\nu_\infty\)为特定方程的正根),\(\theta>1\)时经过有限步后达到严格二次
- 实用性:无需Hessian Lipschitz常数的先验知识,无需最小特征值计算,每次CG迭代仅需一次Hessian向量积,大规模问题下内存效率远优于基于矩阵分解的方法(6GB vs 74GB)
- \(\omega_k^f=\epsilon_k\)的选择消除了\(\log\log(1/\epsilon)\)对数因子,其关键在于\(\epsilon_k\)的单调性使得\(V_k\)的控制更精细
局限性 / 可改进方向¶
- 实验规模有限:仅在CUTEst benchmark上测试,虽有PINN实验但深度学习中的大规模应用仍待验证
- Hölder连续Hessian推广:论文指出技术可推广到Hölder连续Hessian的情形,但由于Hölder指数未知需要额外估计,尚未完成
- 凸情形:是否适用于Doikov & Nesterov (2021)等研究的凸设置仍是开放问题
- 随机优化:能否推广到不精确方法(如Yao et al. 2023)和随机优化设置
- 回退步的必要性:实验表明回退步在实践中几乎不触发,理论上是否可以完全移除值得进一步研究
- CG精度的自适应策略:当前CG精度\(\xi=\rho_k\)是为局部收敛设计的,全局阶段可以使用更宽松的固定容差\(\eta\)以减少计算量
与相关工作的对比¶
| 方法 | 全局复杂度 | 局部收敛率 | 需要\(\epsilon\) | 需要最小特征值 |
|---|---|---|---|---|
| Royer et al. 2020 | \(O(\epsilon^{-3/2})\) | N/A | ✓ | ✗ |
| Gratton et al. 2024 (AN2CER) | \(O(\epsilon^{-3/2}\log(1/\epsilon))\) | N/A | ✗ | ✓ |
| Zhu & Xiao 2024 | \(O(\epsilon^{-3/2})\) | 超线性(需全局强凸) | ✓ | ✗ |
| CAT (Hamad & Hinder 2024) | \(O(\epsilon^{-3/2})\) | 二次 | ✗ | ✗ |
| 本文 ARNCG | \(O(\epsilon^{-3/2})+\tilde{O}(1)\) | 二次(\(\theta>1\)时) | ✗ | ✗ |
与CAT相比,ARNCG使用更少内存(避免构造完整Hessian),且在CUTEst上速度略快。与AN2CER相比,ARNCG无需最小特征值计算,全局复杂度无对数因子。
启发与关联¶
- 正则化器中利用历史信息(\(g_{k-1}\))来"提升"局部收敛率的思想,是否可以类比到深度学习优化器(如Adam的动量项)中,设计同时具有好的全局和局部收敛性质的自适应方法?
- 论文中将迭代序列按梯度范数单调性分段分析的技巧(subsequence partition),在分析其他自适应优化算法时可能有用
- Hessian向量积的高效利用对于大规模问题(如PINN训练)很实用,可作为二阶优化方法在科学计算中的baseline
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次解决了二次正则化Newton法全局-局部复杂度权衡的开放问题
- 实验充分度: ⭐⭐⭐⭐ CUTEst benchmark全面对比,但实际ML应用的验证偏少
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,结构清晰,关键insight解释到位
- 价值: ⭐⭐⭐⭐⭐ 填补了重要的理论空白,算法设计优雅且实用