Natural Gradient VI: Guarantees for Non-Conjugate Models¶

会议: NeurIPS 2025
arXiv: 2510.19163
代码: 无
领域: 优化 / 变分推断
关键词: 自然梯度, 变分推断, 非共轭模型, 镜像下降, 相对光滑性, 收敛保证

一句话总结¶

在 mean-field 参数化下，为非共轭模型的自然梯度变分推断（NGVI）建立了三个关键理论结果：变分损失的相对光滑性条件、带非欧投影的修正 NGVI 的全局收敛到驻点保证、以及在额外结构假设下的隐藏凸性和快速全局收敛保证。

研究背景与动机¶

领域现状：随机自然梯度变分推断（Stochastic NGVI）是近似后验分布最广泛使用的方法之一。它被证明是随机镜像下降（Stochastic Mirror Descent）的特例，与信息几何深度关联。

已有理论的局限： - 对于共轭模型（先验和似然共轭），近期工作利用相对光滑性和强凸性建立了收敛保证 - 但这些结果不适用于非共轭模型——此时变分损失变为非凸、更难分析 - 非共轭设置包括逻辑回归、神经网络等大量实际模型

核心问题： - NGVI 在非共轭模型上为何经验上有效？ - 能否提供严格的收敛保证？ - 非共轭变分损失是否具有某种隐藏的良好结构？

切入角度：聚焦 mean-field 参数化，从三个层面推进理论——光滑性条件、驻点收敛、隐藏凸性。

方法详解¶

整体框架¶

变分推断基础¶

给定模型 \(p(x, y) = p(y|x) p(x)\)，目标是用变分分布 \(q_\lambda(x)\) 近似后验 \(p(x|y)\)。变分损失（ELBO 的负）为：

\[\mathcal{L}(\lambda) = \text{KL}(q_\lambda \| p(\cdot|y)) = \mathbb{E}_{q_\lambda}[\log q_\lambda(x) - \log p(x, y)] + \text{const}\]

NGVI 算法¶

NGVI 利用变分分布族的 Fisher 信息矩阵 \(F(\lambda)\) 进行参数更新：

\[\lambda_{t+1} = \lambda_t - \eta F(\lambda_t)^{-1} \nabla \mathcal{L}(\lambda_t)\]

等价关系：对于指数族分布，NGVI 等价于自然参数空间中的镜像下降，镜像映射为负熵函数。

关键设计¶

贡献一：相对光滑性条件¶

问题：标准（欧氏）光滑性在非共轭模型的变分损失上不成立。

定理 1（非形式化）：对于 mean-field 高斯变分分布 \(q_\lambda(x) = \prod_i \mathcal{N}(x_i; \mu_i, \sigma_i^2)\)，如果似然函数 \(\log p(y|x)\) 满足以下条件： - 有界 Hessian：\(\|\nabla^2 \log p(y|x)\|\) 有界 - 有界三阶导数

则变分损失 \(\mathcal{L}(\lambda)\) 满足关于镜像映射 \(\phi\) 的相对光滑性：

\[\mathcal{L}(\lambda') \leq \mathcal{L}(\lambda) + \langle \nabla \mathcal{L}(\lambda), \lambda' - \lambda \rangle + L \cdot D_\phi(\lambda', \lambda)\]

其中 \(D_\phi\) 是 Bregman 散度。

贡献二：修正 NGVI 与驻点收敛¶

基于相对光滑性，提出修正 NGVI 算法： - 在自然参数空间中进行镜像下降 - 添加非欧投影步骤，确保参数保持在可行域内 - 步长基于相对光滑性常数 \(L\) 设置

定理 2（非形式化）：修正 NGVI 的全局非渐近收敛保证：

\[\min_{t \leq T} \|\nabla \mathcal{L}(\lambda_t)\|^2 \leq O\left(\frac{\mathcal{L}(\lambda_0) - \mathcal{L}^*}{\eta T}\right)\]

即以 \(O(1/T)\) 的速率收敛到驻点。

贡献三：隐藏凸性与快速全局收敛¶

关键发现：在似然函数满足额外结构假设（如对数凹似然）时，虽然变分损失在欧氏空间中非凸，但在自然参数空间中通过适当的镜像映射变换后呈现凸性。

定理 3（非形式化）：当似然函数满足对数凹性条件时，变分损失满足关于镜像映射的相对强凸性，NGVI 以线性速率收敛到全局最优：

\[D_\phi(\lambda^*, \lambda_t) \leq (1 - \mu\eta)^t \cdot D_\phi(\lambda^*, \lambda_0)\]

适用场景¶

模型类型	似然函数	适用理论
共轭模型	指数族	已有结果（相对强凸）
逻辑回归	sigmoid	定理 2（驻点收敛）+ 定理 3（全局收敛）
Probit 回归	Gaussian CDF	定理 2 + 定理 3
泊松回归	exp 链接函数	定理 2（驻点收敛）
神经网络	任意光滑	定理 2（驻点收敛，需有界性条件）

实验关键数据¶

主实验¶

逻辑回归上的 NGVI 收敛（合成数据）¶

方法	迭代数（达到 \(\epsilon=10^{-4}\)）	最终 KL 散度	运行时间 (s)
标准 VI (Adam)	8,500	2.3e-4	12.4
NGVI (标准)	3,200	1.8e-4	5.1
NGVI + 非欧投影（本文）	2,800	1.5e-4	4.7
NGVI + 投影 + 自适应步长	2,100	9.2e-5	3.8

不同非共轭模型上的收敛比较¶

模型	NGVI 收敛速率（实测）	理论预测	匹配度
逻辑回归 (d=10)	\(O(e^{-0.12t})\)	线性收敛	✓
逻辑回归 (d=100)	\(O(e^{-0.03t})\)	线性收敛	✓
Probit 回归 (d=10)	\(O(e^{-0.15t})\)	线性收敛	✓
泊松回归 (d=10)	\(O(1/t)\)	次线性	✓
NN (1层, d=20)	\(O(1/t^{0.8})\)	次线性	≈

消融实验¶

维度对收敛速率的影响（逻辑回归）¶

维度 \(d\)	收敛常数 \(\mu\)	迭代数至收敛	相对光滑性常数 \(L\)	\(L/\mu\) 比率
5	0.21	950	1.8	8.6
10	0.12	1,800	2.3	19.2
50	0.04	6,200	4.1	102.5
100	0.03	12,500	5.7	190.0
500	0.008	48,000	12.3	1537.5

非欧投影的作用¶

方法	逻辑回归收敛步数	泊松回归收敛步数	是否发散情况
NGVI 无投影	3,200	发散 (15%)	有
NGVI + 欧氏投影	3,000	7,500	偶尔
NGVI + 非欧投影	2,800	5,800	无

关键发现¶

相对光滑性确实成立：实验验证了理论预测的相对光滑性条件，实测的光滑性常数与理论估计一致
隐藏凸性被验证：在对数凹似然模型（逻辑回归、Probit 回归）上观察到线性收敛速率，与理论预测匹配
非欧投影关键：在泊松回归等模型上，标准 NGVI 有发散风险，非欧投影有效解决了稳定性问题
维度依赖：条件数 \(L/\mu\) 随维度增长，收敛变慢，但仍保持理论保证的收敛速率
实践指导：对于对数凹似然，可以自信使用 NGVI 并期待快速收敛；对于一般非凸似然，至少可保证收敛到驻点

亮点与洞察¶

填补理论空白：首次为非共轭模型的 NGVI 提供严格收敛保证，弥合了经验成功与理论理解之间的鸿沟
隐藏凸性的发现：揭示了看似非凸的变分损失在适当参数化下的凸性结构——这是一个深刻的几何洞察
实用算法改进：非欧投影不仅是理论工具，实际上也改善了 NGVI 的数值稳定性
统一视角：将共轭和非共轭模型的 NGVI 分析统一到相对光滑/强凸的框架下

局限与展望¶

Mean-field 假设：仅分析最简单的 mean-field 参数化（对角高斯），全协方差或更复杂的变分族未涉及
有界性条件可能过强：对于神经网络似然，理论要求的有界性条件在实践中不一定满足
维度依赖：条件数随维度多项式增长，高维场景的收敛保证可能过于保守
随机噪声分析不足：虽然考虑了随机 NGVI，但噪声的影响分析主要限于有界方差假设
未涉及混合分布：多模态后验需要混合变分分布，超出了当前 mean-field 框架
计算 Fisher 信息矩阵：在大规模模型中精确计算 Fisher 矩阵本身就是挑战

评分¶

新颖性：★★★★☆（在已知框架下的重要理论推进）
实验充分度：★★★★☆（实验设计与理论验证紧密对应）
实用价值：★★★★☆（对 VI 实践者有明确指导意义）
写作质量：★★★★★（理论论文的典范，结构清晰、动机明确）