Deep Legendre Transform¶
会议: NeurIPS 2025
arXiv: 2512.19649
代码: GitHub
领域: others (数值方法 / 凸优化 / 深度学习)
关键词: 凸共轭, Legendre变换, ICNN, KAN, 后验误差估计, Hamilton-Jacobi方程
一句话总结¶
DLT 利用凸共轭的隐式 Fenchel 表示 \(f^*(\nabla f(x)) = \langle x, \nabla f(x) \rangle - f(x)\) 将凸共轭计算转化为标准回归问题,避免求解 max/min-max 优化,且能提供后验误差估计,结合 KAN 还可获得精确解析解。
研究背景与动机¶
- 领域现状:凸共轭(Legendre-Fenchel 变换)是凸分析、优化、物理学、经济学的基础运算。定义为 \(f^*(y) = \sup_{x \in C}\{\langle x,y\rangle - f(x)\}\)。
- 现有痛点:
- 经典网格方法复杂度 \(O(N^d)\),受维度灾难限制,仅适用 \(d \leq 4\)
- 基于神经网络的方法(用于最优传输)需要解复杂的 max-min 问题
- 学习 \(\nabla f\) 的逆映射(Korotin 等)需设计额外优化
- 核心矛盾:高维凸共轭缺乏高效、可扩展、带误差估计的数值方法
- 切入角度:可微凸函数满足隐式等式 \(f^*(\nabla f(x)) = \langle x, \nabla f(x)\rangle - f(x)\)——这直接给出了无需求解优化问题的训练目标
方法详解¶
隐式 Fenchel 公式¶
对可微凸函数 \(f: C \to \mathbb{R}\)(\(C \subseteq \mathbb{R}^d\) 为开凸集),有:
这意味着无需知道 \(f^*\) 的解析形式,就能在 \(\nabla f(x)\) 点处得到精确目标值。
DLT 训练¶
用参数化模型 \(g_\theta: D \to \mathbb{R}\) 逼近 \(f^*\),最小化:
关键优势: - 训练目标值精确等于 \(f^*(\nabla f(x))\),无近似误差 - 标准 MSE 回归——SGD 直接可解 - 如果用 ICNN 作为 \(g_\theta\),输出保证是凸函数
后验误差估计¶
利用相同的隐式公式,可用独立测试集 \(\mathcal{X}_{\text{test}}\) 估计 \(L^2\) 误差:
其中 \(\nu = \mu \circ (\nabla f)^{-1}\) 是采样分布的推前度量。即使 \(f^*\) 未知也能精确评估误差——这是该方法独有的优势。
梯度空间采样¶
当 \(\nabla f\) 严重扭曲 \(C\) 时,直接在 \(C\) 上均匀采样会导致 \(D\) 中分布不均。解决方案: 1. 训练网络 \(h_\vartheta: D \to \mathbb{R}^d\) 逼近 \(\nabla f\) 的广义逆 2. 预训练:\(\min_\vartheta \sum_{x \in \mathcal{W}_{\text{train}}} \|\nabla f(h_\vartheta(\nabla f(x))) - \nabla f(x)\|_2^2\) 3. 微调:加入 \(\min_\vartheta \sum_{y \in \mathcal{Y}_{\text{train}}} \|\nabla f(h_\vartheta(y)) - y\|_2^2\)
模型选择¶
- MLP/ResNet:通用逼近,ResNet 效果最好但不保证凸性
- ICNN:保证输出凸性,适用于下游优化任务
- KAN(Kolmogorov-Arnold 网络):可做符号回归,获得精确解析解
实验关键数据¶
DLT vs 直接学习(\(d=10\) 和 \(d=50\))¶
| 函数 | 模型 | RMSE (DLT / 直接) \(d\)=10 | RMSE (DLT / 直接) \(d\)=50 |
|---|---|---|---|
| Quadratic | MLP | 2.96e-5 / 2.86e-5 | 3.55e-3 / 3.59e-3 |
| Quadratic | ResNet | 2.43e-5 / 3.00e-5 | 2.92e-3 / 3.25e-3 |
| Neg-Log | ResNet | 7.34e-4 / 9.22e-4 | 1.05e-1 / 1.23e-1 |
| Neg-Entropy | ResNet | 6.62e-4 / 7.41e-4 | 6.93e-2 / 7.27e-2 |
DLT 精度与直接学习持平甚至更优(尤其 ResNet),训练时间也相当。ICNN 在高维下误差较大,MLP-ICNN(无 skip connection)效果最差。
模型架构差异¶
| 架构 | 精度(\(d=10\)) | 凸性保证 | 符号回归能力 |
|---|---|---|---|
| MLP | 高 | ✗ | ✗ |
| ResNet | 最高 | ✗ | ✗ |
| ICNN | 中 | ✓ | ✗ |
| KAN | 高 | ✗ | ✓ |
KAN 精确解析解¶
对特定凸函数(如 \(f(x) = \frac{1}{2}\sum x_i^2\)),KAN + 符号回归可恢复精确的 \(f^*(y) = \frac{1}{2}\sum y_i^2\)——这是数值方法罕见实现的。
Hamilton-Jacobi PDE 应用¶
DLT 可用于通过 Hopf 公式求解 Hamilton-Jacobi 方程的初始条件,验证了在 PDE 领域的实际用途。
亮点与洞察¶
- 隐式公式的视角转换极为巧妙:将传统的 \(\sup\) 问题变成 MSE 回归,原理简洁但此前被忽视
- 免费后验误差估计是独特优势——不需要知道真实 \(f^*\) 就能评估任何逼近方法的精度
- KAN 获得精确解析解的能力展示了深度学习在符号计算中的潜力
- 方法与 ICNN 结合可保证凸性,对下游最优传输等任务有直接价值
- 计算复杂度摆脱维度灾难,\(d=50\) 仍可工作
局限性 / 可改进方向¶
- 仅适用于可微凸函数——非光滑凸函数需要其他方法
- 需要能评估 \(f(x)\) 和 \(\nabla f(x)\)——黑箱函数不适用
- 当 \(\nabla f\) 的像 \(D\) 无界时,采样策略更复杂
- ICNN 在高维(\(d=50\))下精度明显下降,实际保证凸性的代价不小
- 未与最优传输求解器做端到端对比
评分¶
- 新颖性: ⭐⭐⭐⭐ 隐式 Fenchel 公式的 ML 应用是新的视角,KAN 精确解是亮点
- 实验充分度: ⭐⭐⭐⭐ 多架构 × 多维度 × 多函数类型 × HJ-PDE 应用
- 写作质量: ⭐⭐⭐⭐⭐ 数学严谨且表述清晰,理论与实验结合好
- 价值: ⭐⭐⭐⭐ 对凸分析和最优传输社区有工具性价值