跳转至

FSNet: Feasibility-Seeking Neural Network for Constrained Optimization with Guarantees

会议: NeurIPS 2025
arXiv: 2506.00362
代码: GitHub
领域: 其他
关键词: 约束优化, 可行性求解, 神经网络代理, 端到端训练, 收敛保证

一句话总结

提出 FSNet 框架,将可微的可行性求解步骤集成到神经网络中,通过最小化约束违反的无约束优化来保证约束满足,同时支持端到端训练,在凸/非凸、光滑/非光滑问题上均显著快于传统求解器且保持可行性。

研究背景与动机

ML 方法作为约束优化的快速代理已成趋势,但约束满足是核心瓶颈:

  • 传统求解器:保证约束但计算代价高,难以实时应用
  • 惩罚法:无可行性保证,产生严重不可行解
  • 投影法:理论可行但一般约束投影代价高昂
  • 迭代法(DC3、ENFORCE):等式/不等式分离处理,无统一保证
  • 核心矛盾:速度与可行性的权衡

方法详解

整体框架

FSNet:预测可行性求解投影启发损失。输入参数 \(x\) → NN 预测 \(y_\theta(x)\) → 可行性求解得到可行解 \(\hat{y}_\theta(x)\),通过展开梯度端到端训练。

关键设计

1. 可行性求解步骤(核心创新)

最小化约束违反的无约束问题:\(\min_s \phi(s;x) := \|h(s;x)\|_2^2 + \|g^+(s;x)\|_2^2\)

以 NN 预测为起始点做梯度下降。关键优势:无约束问题(比投影简单)、等式/不等式统一处理、实际用 L-BFGS。

2. 投影启发损失

\(F = f(\hat{y}_\theta; x) + \frac{\rho}{2}\|y_\theta - \hat{y}_\theta\|_2^2\)

第一项推动低目标值,第二项鼓励 NN 预测接近可行。几何上是 soft 投影。

3. 端到端展开微分

展开可行性求解迭代,自动微分传梯度回 NN。由于 \(y_\theta\) 不在 \(\phi\) 的 KKT 条件中,隐式微分不适用。

4. 截断梯度追踪

仅前 \(K'\) 步计算梯度,偏差随 \(K'\) 指数衰减。

损失函数 / 训练策略

训练损失:期望目标值 + 预测-可行解距离惩罚。早期训练稳定化:违反超阈值 \(Q\) 时额外惩罚。SGD 步长 \(\eta_0/\sqrt{T}\)

收敛保证

定理 1:PL 条件下可行性指数收敛,\(\mathcal{O}(\log(1/\epsilon))\) 步。

定理 2:训练梯度 \(\mathcal{O}(T^{-1/4} + \gamma^K)\),截断偏差指数衰减。

定理 3:NN 充分表达且 \(\rho \to \infty\) 时收敛到全局最优。

实验关键数据

主实验 1:凸问题(100 变量)

方法 等式违反 不等式违反 最优性差距
求解器 ≈0 ≈0 基准
Penalty 负(假象)
DC3
FSNet ≈0 ≈0 < 0.2%

主实验 2:大规模凸问题(500 变量)

问题 批量加速 顺序加速
QP 188x 8x
QCQP 147x 143x
SOCP 36x 2754x

主实验 3:非凸问题

问题 约束违反 最优性 加速比
NC-QP ≈0 匹配 85-3000x
NC-QCQP ≈0 优于 85-3000x
NC-SOCP ≈0 优于 85-3000x

消融实验

  • 截断步数小即可保持性能
  • \(\rho\) 范围宽不敏感
  • ACOPF:30-bus 3x,118-bus 11x,差距 < 1%
  • 非光滑非凸:152-3316x 批量加速

关键发现

  1. FSNet 唯一全问题类别近零约束违反的 ML 方法
  2. 其他方法"低差距"是不可行假象
  3. 非凸问题优于 IPOPT
  4. 无约束可行性求解是速度关键

亮点与洞察

  1. 范式转换:先预测再修正,无约束本质是关键
  2. 三层理论保证:可行性+训练+最优性收敛
  3. 实用性强:L-BFGS+截断梯度高效稳定
  4. 非凸意外优势:NN 隐式正则可优于局部求解器
  5. 统一框架:单一 \(\phi\) 处理所有约束

局限性 / 可改进方向

  1. 理论依赖 PL 条件和光滑假设
  2. 极大规模可扩展性待验证
  3. 可行性求解增加推理时间
  4. 定理 3 假设较强
  5. 可探索更高效求解算法

相关工作与启发

  • DC3:约束修正先驱但无保证
  • OptNet:QP 嵌入 NN 但受限于结构
  • 启发:可行性求解+端到端训练可推广到物理 NN、安全 RL

评分

  • 新颖性: ⭐⭐⭐⭐ — 简洁有效但是已有元素组合
  • 实验充分度: ⭐⭐⭐⭐⭐ — 凸/非凸/光滑/非光滑全覆盖
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰理论实验对照好
  • 价值: ⭐⭐⭐⭐⭐ — 解决约束满足关键痛点,开源