Natural Gradient VI: Guarantees for Non-Conjugate Models¶
会议: NeurIPS 2025
arXiv: 2510.19163
代码: 无
领域: 优化 / 变分推断
关键词: 自然梯度, 变分推断, 非共轭模型, 镜像下降, 相对光滑性, 收敛保证
一句话总结¶
在 mean-field 参数化下,为非共轭模型的自然梯度变分推断(NGVI)建立了三个关键理论结果:变分损失的相对光滑性条件、带非欧投影的修正 NGVI 的全局收敛到驻点保证、以及在额外结构假设下的隐藏凸性和快速全局收敛保证。
研究背景与动机¶
领域现状:随机自然梯度变分推断(Stochastic NGVI)是近似后验分布最广泛使用的方法之一。它被证明是随机镜像下降(Stochastic Mirror Descent)的特例,与信息几何深度关联。
已有理论的局限: - 对于共轭模型(先验和似然共轭),近期工作利用相对光滑性和强凸性建立了收敛保证 - 但这些结果不适用于非共轭模型——此时变分损失变为非凸、更难分析 - 非共轭设置包括逻辑回归、神经网络等大量实际模型
核心问题: - NGVI 在非共轭模型上为何经验上有效? - 能否提供严格的收敛保证? - 非共轭变分损失是否具有某种隐藏的良好结构?
切入角度:聚焦 mean-field 参数化,从三个层面推进理论——光滑性条件、驻点收敛、隐藏凸性。
方法详解¶
整体框架¶
变分推断基础¶
给定模型 \(p(x, y) = p(y|x) p(x)\),目标是用变分分布 \(q_\lambda(x)\) 近似后验 \(p(x|y)\)。变分损失(ELBO 的负)为:
NGVI 算法¶
NGVI 利用变分分布族的 Fisher 信息矩阵 \(F(\lambda)\) 进行参数更新:
等价关系:对于指数族分布,NGVI 等价于自然参数空间中的镜像下降,镜像映射为负熵函数。
关键设计¶
贡献一:相对光滑性条件¶
问题:标准(欧氏)光滑性在非共轭模型的变分损失上不成立。
定理 1(非形式化):对于 mean-field 高斯变分分布 \(q_\lambda(x) = \prod_i \mathcal{N}(x_i; \mu_i, \sigma_i^2)\),如果似然函数 \(\log p(y|x)\) 满足以下条件: - 有界 Hessian:\(\|\nabla^2 \log p(y|x)\|\) 有界 - 有界三阶导数
则变分损失 \(\mathcal{L}(\lambda)\) 满足关于镜像映射 \(\phi\) 的相对光滑性:
其中 \(D_\phi\) 是 Bregman 散度。
贡献二:修正 NGVI 与驻点收敛¶
基于相对光滑性,提出修正 NGVI 算法: - 在自然参数空间中进行镜像下降 - 添加非欧投影步骤,确保参数保持在可行域内 - 步长基于相对光滑性常数 \(L\) 设置
定理 2(非形式化):修正 NGVI 的全局非渐近收敛保证:
即以 \(O(1/T)\) 的速率收敛到驻点。
贡献三:隐藏凸性与快速全局收敛¶
关键发现:在似然函数满足额外结构假设(如对数凹似然)时,虽然变分损失在欧氏空间中非凸,但在自然参数空间中通过适当的镜像映射变换后呈现凸性。
定理 3(非形式化):当似然函数满足对数凹性条件时,变分损失满足关于镜像映射的相对强凸性,NGVI 以线性速率收敛到全局最优:
适用场景¶
| 模型类型 | 似然函数 | 适用理论 |
|---|---|---|
| 共轭模型 | 指数族 | 已有结果(相对强凸) |
| 逻辑回归 | sigmoid | 定理 2(驻点收敛)+ 定理 3(全局收敛) |
| Probit 回归 | Gaussian CDF | 定理 2 + 定理 3 |
| 泊松回归 | exp 链接函数 | 定理 2(驻点收敛) |
| 神经网络 | 任意光滑 | 定理 2(驻点收敛,需有界性条件) |
实验关键数据¶
主实验¶
逻辑回归上的 NGVI 收敛(合成数据)¶
| 方法 | 迭代数(达到 \(\epsilon=10^{-4}\)) | 最终 KL 散度 | 运行时间 (s) |
|---|---|---|---|
| 标准 VI (Adam) | 8,500 | 2.3e-4 | 12.4 |
| NGVI (标准) | 3,200 | 1.8e-4 | 5.1 |
| NGVI + 非欧投影(本文) | 2,800 | 1.5e-4 | 4.7 |
| NGVI + 投影 + 自适应步长 | 2,100 | 9.2e-5 | 3.8 |
不同非共轭模型上的收敛比较¶
| 模型 | NGVI 收敛速率(实测) | 理论预测 | 匹配度 |
|---|---|---|---|
| 逻辑回归 (d=10) | \(O(e^{-0.12t})\) | 线性收敛 | ✓ |
| 逻辑回归 (d=100) | \(O(e^{-0.03t})\) | 线性收敛 | ✓ |
| Probit 回归 (d=10) | \(O(e^{-0.15t})\) | 线性收敛 | ✓ |
| 泊松回归 (d=10) | \(O(1/t)\) | 次线性 | ✓ |
| NN (1层, d=20) | \(O(1/t^{0.8})\) | 次线性 | ≈ |
消融实验¶
维度对收敛速率的影响(逻辑回归)¶
| 维度 \(d\) | 收敛常数 \(\mu\) | 迭代数至收敛 | 相对光滑性常数 \(L\) | \(L/\mu\) 比率 |
|---|---|---|---|---|
| 5 | 0.21 | 950 | 1.8 | 8.6 |
| 10 | 0.12 | 1,800 | 2.3 | 19.2 |
| 50 | 0.04 | 6,200 | 4.1 | 102.5 |
| 100 | 0.03 | 12,500 | 5.7 | 190.0 |
| 500 | 0.008 | 48,000 | 12.3 | 1537.5 |
非欧投影的作用¶
| 方法 | 逻辑回归收敛步数 | 泊松回归收敛步数 | 是否发散情况 |
|---|---|---|---|
| NGVI 无投影 | 3,200 | 发散 (15%) | 有 |
| NGVI + 欧氏投影 | 3,000 | 7,500 | 偶尔 |
| NGVI + 非欧投影 | 2,800 | 5,800 | 无 |
关键发现¶
- 相对光滑性确实成立:实验验证了理论预测的相对光滑性条件,实测的光滑性常数与理论估计一致
- 隐藏凸性被验证:在对数凹似然模型(逻辑回归、Probit 回归)上观察到线性收敛速率,与理论预测匹配
- 非欧投影关键:在泊松回归等模型上,标准 NGVI 有发散风险,非欧投影有效解决了稳定性问题
- 维度依赖:条件数 \(L/\mu\) 随维度增长,收敛变慢,但仍保持理论保证的收敛速率
- 实践指导:对于对数凹似然,可以自信使用 NGVI 并期待快速收敛;对于一般非凸似然,至少可保证收敛到驻点
亮点与洞察¶
- 填补理论空白:首次为非共轭模型的 NGVI 提供严格收敛保证,弥合了经验成功与理论理解之间的鸿沟
- 隐藏凸性的发现:揭示了看似非凸的变分损失在适当参数化下的凸性结构——这是一个深刻的几何洞察
- 实用算法改进:非欧投影不仅是理论工具,实际上也改善了 NGVI 的数值稳定性
- 统一视角:将共轭和非共轭模型的 NGVI 分析统一到相对光滑/强凸的框架下
局限与展望¶
- Mean-field 假设:仅分析最简单的 mean-field 参数化(对角高斯),全协方差或更复杂的变分族未涉及
- 有界性条件可能过强:对于神经网络似然,理论要求的有界性条件在实践中不一定满足
- 维度依赖:条件数随维度多项式增长,高维场景的收敛保证可能过于保守
- 随机噪声分析不足:虽然考虑了随机 NGVI,但噪声的影响分析主要限于有界方差假设
- 未涉及混合分布:多模态后验需要混合变分分布,超出了当前 mean-field 框架
- 计算 Fisher 信息矩阵:在大规模模型中精确计算 Fisher 矩阵本身就是挑战
相关工作与启发¶
- Khan & Rue (2021):建立了 NGVI 与镜像下降的等价关系
- Lin et al. (2024):为共轭模型的 NGVI 提供了基于相对强凸性的收敛保证
- 变分推断理论:Blei et al. (2017) 综述,以及后续的收敛分析工作
- 自然梯度方法:Amari (1998) 提出的信息几何框架
- 镜像下降:Nemirovsky & Yudin (1983) 的经典优化方法
评分¶
- 新颖性:★★★★☆(在已知框架下的重要理论推进)
- 实验充分度:★★★★☆(实验设计与理论验证紧密对应)
- 实用价值:★★★★☆(对 VI 实践者有明确指导意义)
- 写作质量:★★★★★(理论论文的典范,结构清晰、动机明确)
相关论文¶
- [NeurIPS 2025] Natural Gradient Descent for Improving Variational Inference Based Classification of Radio Galaxies
- [NeurIPS 2025] Learning Sparse Approximate Inverse Preconditioners for Conjugate Gradient Solvers on GPUs
- [ICML 2025] Emergence in Non-Neural Models: Grokking Modular Arithmetic via Average Gradient Outer Product
- [ICML 2025] Subspace Optimization for Large Language Models with Convergence Guarantees
- [NeurIPS 2025] Non-Stationary Bandit Convex Optimization: A Comprehensive Study