Faster Gradient Methods for Highly-Smooth Stochastic Bilevel Optimization¶
会议: ICLR2026
arXiv: 2509.02937
代码: GitHub
领域: optimization
关键词: bilevel optimization, stochastic optimization, finite difference, hyper-gradient estimation, complexity lower bound
一句话总结¶
通过将 F2SA 方法重新解释为前向差分近似 hyper-gradient,提出利用高阶有限差分的 F2SA-p 方法族,在高阶光滑条件下将随机双层优化的 SFO 复杂度从 \(\tilde{\mathcal{O}}(\epsilon^{-6})\) 改进至 \(\tilde{\mathcal{O}}(p\epsilon^{-4-2/p})\),并证明了 \(\Omega(\epsilon^{-4})\) 下界表明该方法在 \(p\) 足够大时近乎最优。
背景与动机¶
双层优化 (bilevel optimization) 在元学习、超参数调优、对抗训练、强化学习等任务中广泛出现,其目标为 \(\min_{\bm{x}} f(\bm{x}, \bm{y}^*(\bm{x}))\),其中 \(\bm{y}^*(\bm{x}) = \arg\min_{\bm{y}} g(\bm{x}, \bm{y})\)。现有方法主要分两类:
- 基于 Hessian-向量积 (HVP) 的方法:如 BSA、stocBiO,需要随机 Hessian 预言机,假设更强
- 纯一阶方法:如 F2SA,仅需随机梯度预言机,假设更弱,实践中可扩展到 32B 规模 LLM 训练
F2SA 在标准 SGD 假设下取得了 \(\tilde{\mathcal{O}}(\epsilon^{-6})\) 的复杂度上界,但与单层优化的 \(\Omega(\epsilon^{-4})\) 下界仍有显著差距。问题在于:纯一阶方法能否在双层优化中达到最优复杂度?
核心问题¶
在上层函数非凸、下层函数强凸的随机双层优化设定下,能否利用目标函数的高阶光滑性质,突破现有纯一阶方法的 \(\tilde{\mathcal{O}}(\epsilon^{-6})\) 复杂度瓶颈,逼近 \(\Omega(\epsilon^{-4})\) 的下界?
方法详解¶
关键洞察:F2SA 即前向差分¶
作者首先揭示了 F2SA 与有限差分之间的深层联系。定义扰动下层问题 \(g_\nu(\bm{x}, \bm{y}) = \nu f(\bm{x}, \bm{y}) + g(\bm{x}, \bm{y})\) 及其最优值函数 \(\ell_\nu(\bm{x})\),可以证明:
F2SA 的惩罚函数梯度本质上是用前向差分 \((\ell_\nu - \ell_0)/\nu\) 来近似 \(\partial \ell_\nu / \partial \nu|_{\nu=0}\),仅有一阶误差保证 \(\mathcal{O}(\nu)\)。
F2SA-p:高阶有限差分¶
既然前向差分只是诸多差分格式中最简单的一种,自然可以用更高阶的有限差分来降低近似误差。根据数值分析中的经典结果 (Lemma 3.1),\(p\) 阶有限差分可以实现 \(\mathcal{O}(\nu^p)\) 的近似精度:
- \(p=1\)(前向差分):\(\alpha_0=-1, \alpha_1=1\),即原始 F2SA
- \(p=2\)(中心差分):\(\alpha_{-1}=-1/2, \alpha_1=1/2\),对应对称惩罚问题 F2SA-2
对于一般的偶数 \(p\),算法结构为双层循环:
- 内层循环:对每个 \(j = -p/2, \ldots, p/2\),运行 \(K\) 步 SGD 求解扰动下层问题 \(g_{j\nu}(\bm{x}, \cdot)\),近似 \(\bm{y}_{j\nu}^*(\bm{x})\)
- 外层循环:利用有限差分系数 \(\{\alpha_j\}\) 线性组合各扰动点的梯度信息构建 hyper-gradient 估计 \(\Phi_t\),然后执行归一化梯度下降步 \(\bm{x}_{t+1} = \bm{x}_t - \eta_x \Phi_t / \|\Phi_t\|\)
高阶光滑性假设¶
方法的改进依赖于下层变量 \(\bm{y}\) 方向上的高阶光滑性(Assumption 2.5),即要求 \(f, g\) 关于 \(\bm{y}\) 的高阶导数满足 Lipschitz 连续。注意这比要求关于 \((\bm{x}, \bm{y})\) 联合高阶光滑更弱。softmax 函数是天然满足任意阶光滑性的经典例子,因此许多涉及逻辑回归的超参数调优问题(如 data hyper-cleaning、learn-to-regularize)天然满足此条件。
复杂度分析¶
通过高维 Faà di Bruno 公式证明 \(\ell_\nu(\bm{x})\) 关于 \(\nu\) 的高阶导数的 Lipschitz 连续性 (Lemma 3.2),从而保证有限差分的 \(\mathcal{O}(\nu^p)\) 误差。主定理表明:
当 \(p = \Omega(\log\epsilon^{-1}/\log\log\epsilon^{-1})\) 时,复杂度简化为 \(\tilde{\mathcal{O}}(\kappa^9 \epsilon^{-4})\),匹配基于 HVP 方法在随机 Hessian 假设下的最优复杂度。
归一化梯度下降¶
与原始 F2SA 不同,外层循环使用归一化梯度步 \(\bm{x}_{t+1} = \bm{x}_t - \eta_x \Phi_t / \|\Phi_t\|\)。归一化可以控制 \(\bm{y}_{j\nu}^*(\bm{x}_t)\) 的变化幅度,简化内层分析。作者认为标准梯度步也可通过更复杂的分析得到同样保证。
偶数 p vs 奇数 p¶
偶数 \(p\) 时中心差分的 \(\alpha_0 = 0\),仅需 \(p\) 个扰动点;奇数 \(p\) 需要 \(p+1\) 个点。因此 F2SA-2 实际上优于 F2SA(\(p=1\)):同样求解 2 个下层问题,但误差阶更高。即使不满足二阶光滑也不会比 F2SA 差,仅退化为一阶误差。
下界证明¶
通过构造一个完全可分的双层实例(\(f(\bm{x}, \bm{y}) \equiv f_{\bm{U}}(\bm{x})\),\(g(\bm{x}, y) = \mu y^2/2\)),将双层问题约化为单层问题,从而继承 Arjevani et al. (2023) 的 \(\Omega(\epsilon^{-4})\) 下界。该构造巧妙地自动满足所有高阶光滑性条件,避免了先前工作(Dagréou et al. 2024, Kwon et al. 2024a)构造中违反光滑性假设的问题。
实验关键数据¶
在 20 Newsgroups 数据集上进行 learn-to-regularize 逻辑回归实验(18000 样本,130107 维特征,20 类),该问题天然满足任意阶高阶光滑。
- 比较方法:F2SA-p(\(p \in \{2,3,5,8,10\}\))vs F2SA vs stocBiO vs MRBO vs VRBO
- 内循环 \(K=10\),外循环 \(T=1000\)
- F2SA-p 系列随 \(p\) 增大收敛速度逐步改善,验证了理论预测
- 附录中在 5 层 ReLU MLP 上的实验表明方法在非光滑非凸问题上也有潜力
亮点¶
- 优雅的理论洞察:将 F2SA 重新解释为有限差分,这一视角自然地导出了算法改进方向
- 几乎免费的改进:F2SA-2 只需求解 2 个下层问题(与 F2SA 相同),但获得二阶误差保证
- 完备的理论体系:上界 \(\tilde{\mathcal{O}}(p\epsilon^{-4-2/p})\) + 下界 \(\Omega(\epsilon^{-4})\),证明高阶光滑区域近乎最优
- 更紧的已知界:\(p=1\) 时改进系数 \(\kappa\),\(p=2\) 时修正了先前工作的 Hessian 收敛界
- 假设更弱:仅需 \(\bm{y}\) 方向高阶光滑,不需联合高阶光滑或随机 Hessian 假设
局限性 / 可改进方向¶
- 当 \(p\) 较小(特别是 \(p=1\))时上下界仍有差距,即使 \(p=1\) 的最优复杂度仍是开放问题
- 条件数 \(\kappa\) 的依赖存在 \(\Omega(\kappa^9)\) 的上下界差距
- 实验仅在凸下层问题上验证,非凸-非凸结构化双层优化的推广尚待研究
- 未与方差缩减或动量技术结合,有进一步加速空间
- 高阶光滑性假设限制了适用范围,深度网络中通常不满足
与相关工作的对比¶
| 方法 | 光滑阶 | 复杂度 | 需要 HVP |
|---|---|---|---|
| BSA | 1 阶 | \(\tilde{\mathcal{O}}(\epsilon^{-6})\) SFO + \(\tilde{\mathcal{O}}(\epsilon^{-4})\) HVP | 是 |
| stocBiO | 1 阶 | \(\tilde{\mathcal{O}}(\epsilon^{-4})\) | 是 |
| F2SA | 1 阶 | \(\tilde{\mathcal{O}}(\kappa^{12}\epsilon^{-6})\) | 否 |
| F2SA-p | \(p\) 阶 | \(\tilde{\mathcal{O}}(p\kappa^{9+2/p}\epsilon^{-4-2/p})\) | 否 |
| 下界 | \(p\) 阶 | \(\Omega(\epsilon^{-4})\) | — |
相比 Chayti & Jaggi (2024) 仅在元学习和对称近似中建立的有限差分联系,本文推广到一般双层优化和任意阶有限差分。相比 Huang et al. (2025) 需要联合高阶光滑,本文仅需 \(\bm{y}\) 方向高阶光滑。
启发与关联¶
- 有限差分视角的力量:将算法动机从惩罚函数转化为有限差分,为双层优化方法设计提供了全新透镜
- 可推广至其他问题:有限差分改进思路可能适用于其他涉及隐函数定理的优化问题(如 minimax、compositional optimization)
- 实践指导:F2SA-2 作为默认替代 F2SA 的方案,几乎无额外代价但理论更优
评分¶
- 新颖性: ⭐⭐⭐⭐ — 有限差分视角新颖且自然,算法族设计优雅
- 实验充分度: ⭐⭐⭐ — 实验相对简单,仅凸下层逻辑回归,大规模实验不足
- 写作质量: ⭐⭐⭐⭐⭐ — 论文结构清晰,从洞察到算法到理论的逻辑链条完整
- 价值: ⭐⭐⭐⭐ — 在双层优化理论中建立了重要的新结果,缩小了上下界差距