Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding¶

会议: ICLR2026
arXiv: 2512.01565
代码: 待确认
领域: 优化/理论
关键词: 二次规划, 深度展开, ADMM, 序列二次规划, LSTM策略, PAC-Bayes

一句话总结¶

提出 FlexQP——基于 \(\ell_1\) 弹性松弛的"永远可行"凸二次规划（QP）求解器，结合深度展开（deep unfolding）学习 LSTM 反馈策略加速收敛得到 Deep FlexQP；在 SQP 框架中作为子模块，解非线性轨迹优化比 OSQP 快 4-16 倍，预测安全滤波器的安全违规减少 70%+、任务完成率提升 43%。

研究背景与动机¶

领域现状：二次规划（QP）是最优控制、组合优化、机器学习中的基础子问题；序列二次规划（SQP）通过迭代求解 QP 子问题来处理非线性非凸约束优化。
现有痛点：SQP 的约束线性化经常导致不可行的 QP 子问题（infeasible QP），传统求解器（如 OSQP）要么报错终止，要么需要专门的不可行性修复程序（如 SNOPT 的 elastic mode），不可扩展。同时，ADMM 超参数（\(\rho, \sigma, \alpha\)）调优困难。
核心idea：用 \(\ell_1\) 精确松弛将约束 QP 转为无约束优化——可行时恢复原解（Theorem 3.1），不可行时自动找稀疏违约最小点；然后用深度展开 + LSTM 学习维度无关的反馈策略替代手动调参。

方法详解¶

整体框架¶

原始 QP: \(\min_x \frac{1}{2}x^\top P x + q^\top x\), s.t. \(Gx \leq h, Ax = b\) → 引入松弛变量 → \(\ell_1\) 弹性松弛 → ADMM 分裂 → 两块迭代（线性系统求解 + soft thresholding）。深度展开将 ADMM 的 \(K\) 步迭代视为 \(K\) 层网络，学习每层的参数。

关键设计 1：FlexQP 的精确松弛¶

用 \(\ell_1\) 惩罚 \(\mu_I \|Gx+s-h\|_1 + \mu_E \|Ax-b\|_1\) 替代硬约束
Theorem 3.1：当 \(\mu_I \geq \|y_I^*\|_\infty\), \(\mu_E \geq \|y_E^*\|_\infty\) 时，松弛解与原解完全一致
Theorem 3.2：在弱协强性假设下保证收敛
不可行时 \(z_I^*, z_E^*\) 自动给出约束违约的稀疏证书

关键设计 2：LSTM 反馈策略¶

分别为不等式约束（\(\pi_I\)）、等式约束（\(\pi_E\)）、松弛参数（\(\pi_\alpha\)）学习独立策略
策略输入为 ADMM 变量 + 原始/对偶残差，按约束维度批量应用 → 维度无关，可泛化到大规模问题
LSTM 捕捉优化历史长程依赖，自适应调整 \(\rho, \mu, \alpha\)

关键设计 3：归一化训练损失与 PAC-Bayes 界¶

训练损失包含 Lagrange 乘子：\(\min_\theta \sum_k \|\xi^k(\theta) - \xi^*\|_2 / \|\xi^*\|_2\), \(\xi = (x, y_I, y_E)\)，隐式强制 \(\mu \geq |y^*|\)
提出对数尺度 PAC-Bayes 损失（Eq. 14）：在残差很小时比标准损失（Eq. 13）信息量高数个数量级，得到更紧的泛化保证

实验关键数据¶

小中规模 QP（500训练/1000测试问题）¶

求解器	收敛速度（迭代数）	最终残差
OSQP（手调）	基线	基线
Deep OSQP	优于 OSQP	优于 OSQP
Deep OSQP-Improved	进一步提升	进一步提升
Deep FlexQP	所有方法中最快	所有方法中最低

大规模 QP（10k变量/10-20k约束）¶

问题类	Deep FlexQP 优势
Portfolio Optimization (10k var, 10k con)	迭代数最少，通过微调小模型泛化
SVM (10k var, 20k con)	CG迭代数最少

SQP 非线性优化¶

指标	Deep FlexQP + SQP vs OSQP + SQP
轨迹优化速度	4-16× 更快（100问题平均）
安全滤波器安全违规	减少 >70%
安全滤波器任务完成率	提升 43%

关键发现¶

FlexQP 架构本身（弹性松弛 + LSTM）是优越性的主因——同样的损失函数下 Deep OSQP 变体的微调效果远不如 Deep FlexQP
仅需在小规模问题上训练，再用100个大规模问题微调5轮即可泛化到 10k+ 维度
对数尺度 PAC-Bayes 界使泛化保证有实际意义（标准界在小残差时无信息）

亮点与洞察¶

理论优雅性：\(\ell_1\) 精确松弛 + ADMM + 深度展开的有机结合，每一步都有明确的数学保证
实用价值极高：解决了 SQP 中不可行子问题的核心痛点，无需额外修复程序
维度无关的 LSTM 策略设计使单次训练可泛化到任意规模问题

局限性 / 可改进方向¶

大规模问题训练开销仍大（每 epoch 约3小时），全量训练需 300+ 天
仅在密集 QP 上验证，稀疏 QP（如电力网络优化）可能需要不同策略
LSTM 策略的可解释性有限，难以理解学到的调参规则

评分¶

新颖性: ⭐⭐⭐⭐ 弹性松弛+深度展开的组合新颖，但各组件均非全新
实验充分度: ⭐⭐⭐⭐⭐ 从小规模到大规模QP再到非线性SQP，涵盖金融/ML/控制多领域
写作质量: ⭐⭐⭐⭐ 结构清晰，理论推导严谨
价值: ⭐⭐⭐⭐⭐ 解决SQP的核心工程痛点，有广泛应用前景