FSNet: Feasibility-Seeking Neural Network for Constrained Optimization with Guarantees¶

会议: NeurIPS 2025
arXiv: 2506.00362
代码: GitHub
领域: 其他
关键词: 约束优化, 可行性求解, 神经网络代理, 端到端训练, 收敛保证

一句话总结¶

提出 FSNet 框架，将可微的可行性求解步骤集成到神经网络中，通过最小化约束违反的无约束优化来保证约束满足，同时支持端到端训练，在凸/非凸、光滑/非光滑问题上均显著快于传统求解器且保持可行性。

研究背景与动机¶

ML 方法作为约束优化的快速代理已成趋势，但约束满足是核心瓶颈：

传统求解器：保证约束但计算代价高，难以实时应用
惩罚法：无可行性保证，产生严重不可行解
投影法：理论可行但一般约束投影代价高昂
迭代法（DC3、ENFORCE）：等式/不等式分离处理，无统一保证
核心矛盾：速度与可行性的权衡

方法详解¶

整体框架¶

FSNet：预测 → 可行性求解 → 投影启发损失。输入参数 \(x\) → NN 预测 \(y_\theta(x)\) → 可行性求解得到可行解 \(\hat{y}_\theta(x)\)，通过展开梯度端到端训练。

关键设计¶

1. 可行性求解步骤（核心创新）

最小化约束违反的无约束问题：\(\min_s \phi(s;x) := \|h(s;x)\|_2^2 + \|g^+(s;x)\|_2^2\)

以 NN 预测为起始点做梯度下降。关键优势：无约束问题（比投影简单）、等式/不等式统一处理、实际用 L-BFGS。

2. 投影启发损失

\(F = f(\hat{y}_\theta; x) + \frac{\rho}{2}\|y_\theta - \hat{y}_\theta\|_2^2\)

第一项推动低目标值，第二项鼓励 NN 预测接近可行。几何上是 soft 投影。

3. 端到端展开微分

展开可行性求解迭代，自动微分传梯度回 NN。由于 \(y_\theta\) 不在 \(\phi\) 的 KKT 条件中，隐式微分不适用。

4. 截断梯度追踪

仅前 \(K'\) 步计算梯度，偏差随 \(K'\) 指数衰减。

损失函数 / 训练策略¶

训练损失：期望目标值 + 预测-可行解距离惩罚。早期训练稳定化：违反超阈值 \(Q\) 时额外惩罚。SGD 步长 \(\eta_0/\sqrt{T}\)。

收敛保证¶

定理 1：PL 条件下可行性指数收敛，\(\mathcal{O}(\log(1/\epsilon))\) 步。

定理 2：训练梯度 \(\mathcal{O}(T^{-1/4} + \gamma^K)\)，截断偏差指数衰减。

定理 3：NN 充分表达且 \(\rho \to \infty\) 时收敛到全局最优。

实验关键数据¶

主实验 1：凸问题（100 变量）¶

方法	等式违反	不等式违反	最优性差距
求解器	≈0	≈0	基准
Penalty	大	大	负（假象）
DC3	低	高	负
FSNet	≈0	≈0	< 0.2%

主实验 2：大规模凸问题（500 变量）¶

问题	批量加速	顺序加速
QP	188x	8x
QCQP	147x	143x
SOCP	36x	2754x

主实验 3：非凸问题¶

问题	约束违反	最优性	加速比
NC-QP	≈0	匹配	85-3000x
NC-QCQP	≈0	优于	85-3000x
NC-SOCP	≈0	优于	85-3000x

消融实验¶

截断步数小即可保持性能
\(\rho\) 范围宽不敏感
ACOPF：30-bus 3x，118-bus 11x，差距 < 1%
非光滑非凸：152-3316x 批量加速

关键发现¶

FSNet 唯一全问题类别近零约束违反的 ML 方法
其他方法"低差距"是不可行假象
非凸问题优于 IPOPT
无约束可行性求解是速度关键

亮点与洞察¶

范式转换：先预测再修正，无约束本质是关键
三层理论保证：可行性+训练+最优性收敛
实用性强：L-BFGS+截断梯度高效稳定
非凸意外优势：NN 隐式正则可优于局部求解器
统一框架：单一 \(\phi\) 处理所有约束

局限性 / 可改进方向¶

理论依赖 PL 条件和光滑假设
极大规模可扩展性待验证
可行性求解增加推理时间
定理 3 假设较强
可探索更高效求解算法

评分¶

新颖性: ⭐⭐⭐⭐ — 简洁有效但是已有元素组合
实验充分度: ⭐⭐⭐⭐⭐ — 凸/非凸/光滑/非光滑全覆盖
写作质量: ⭐⭐⭐⭐ — 结构清晰理论实验对照好
价值: ⭐⭐⭐⭐⭐ — 解决约束满足关键痛点，开源