Amortized Variational Inference for Logistic Regression with Missing Covariates¶

日期: 2026-03-22
arXiv: 2603.21244
代码: 无
领域: 图像生成
关键词: missing data, variational inference, amortized inference, MNAR, logistic regression

一句话总结¶

提出 AV-LR，用摊销变分推断直接在缺失协变量空间做推断（无需额外隐变量）——单个推断网络同时估计回归参数和缺失机制，在 60% MNAR 下 AUC=0.771 超越 SAEM 和 MICE，训练快 67×。

研究背景与动机¶

领域现状: 逻辑回归中处理缺失协变量的经典方法（EM/SAEM/MICE）计算密集、对高缺失率敏感，且难以建模非随机缺失（MNAR）。
现有痛点: (a) EM/SAEM 训练耗时极长（4000+秒 vs AV-LR 63秒）；(b) VAE 方法引入复杂隐空间增加优化难度和可解释性损失；(c) MICE 是启发式多重插补，无法传播不确定性。
核心 idea: 去掉额外隐变量——直接在缺失值空间做摊销变分推断。一个神经网络 \(q_\phi(x_{mis}|x_{obs}, y)\) 输出缺失值的后验分布，同时学回归参数 \(\beta\) 和缺失机制参数 \(\psi\)。

方法详解¶

整体框架¶

构建生成模型 \(p(y,x) = \text{Logistic}(y|x;\beta) \times \mathcal{N}(x|\mu,\Sigma)\) → 推断网络 \(q_\phi\) 输出缺失值的高斯后验 → 最大化 IWAE (K 个重要性样本) → 对 MNAR 扩展: 加入显式缺失机制 \(p(r|x,y)\)。

关键设计¶

直接缺失值空间推断:
- 变分分布 \(q_\phi(x_{mis}|x_{obs}, y)\) 为多元高斯
- 推断网络输出均值 \(\mu_q\) 和 Cholesky 分解的协方差 \(\Sigma_q\)（确保正定）
- 跨样本共享参数（摊销），避免逐样本优化
重要性加权 ELBO:
- \(K\) 个重要性样本收紧变分下界: \(w^{(k)} = p(y|x^{(k)})p(x^{(k)})/q_\phi(x^{(k)}_{mis}|x_{obs}, y)\)
- K=1 方差大，K=6 稳定收敛，再多收益递减
- 重参数化技巧支持梯度优化
MNAR 扩展:
- 加入选择模型: \(p(r|x,y) = \prod_j \text{Bernoulli}(\sigma(g_{\psi,j}(x,y)))\)
- 神经网络 \(g_\psi\) 显式建模缺失机制
- 在 MNAR 数据上比忽略缺失机制的方法显著更好
- 即使在 MAR 数据上也有微弱优势

实验关键数据¶

主实验¶

方法	50% MCAR RMSE_β	60% MNAR AUC	训练时间
SAEM	0.271	~0.66	4211s
MICE	—	0.659	0.1s
NotMIWAE	—	0.738	—
AV-LR	0.085	0.771	63s

真实数据（NHANES）¶

方法	Brier	AUC
MICE	0.195	—
MIWAE	0.203	0.770
AV-LR	0.194	0.776

关键发现¶

比 SAEM 快 67×，比 MICE 在 MNAR 下准确率高 12%
MNAR 扩展在 MAR 数据上也有微弱改善（协变量-缺失相关性建模的好处）
参数估计 RMSE 在高缺失率下退化最小

亮点与洞察¶

去掉隐变量的设计是核心亮点: 直接在缺失值空间推断避免了 VAE 的额外复杂性
端到端联合优化: 插补和分类参数同时学，不需要两阶段
摊销推断的测试速度: 训练后预测仅 0.15s，适合在线部署

局限性 / 可改进方向¶

仅支持二分类，多分类/连续结果延伸理论上直接但未验证
协变量正态分布假设对混合类型数据可能不成立
仅验证到 13 个协变量，高维（>100）可扩展性未知
MNAR 的可识别性假设较强

评分¶

新颖性: ⭐⭐⭐⭐ 无隐变量的摊销 VI 方法论有价值
实验充分度: ⭐⭐⭐⭐ 合成+真实数据、多缺失模式、计算时间对比
写作质量: ⭐⭐⭐⭐ 数学推导完整
价值: ⭐⭐⭐ 应用场景相对专业（统计/临床）