Amortized Variational Inference for Logistic Regression with Missing Covariates¶
日期: 2026-03-22
arXiv: 2603.21244
代码: 无
领域: 图像生成
关键词: missing data, variational inference, amortized inference, MNAR, logistic regression
一句话总结¶
提出 AV-LR,用摊销变分推断直接在缺失协变量空间做推断(无需额外隐变量)——单个推断网络同时估计回归参数和缺失机制,在 60% MNAR 下 AUC=0.771 超越 SAEM 和 MICE,训练快 67×。
研究背景与动机¶
-
领域现状: 逻辑回归中处理缺失协变量的经典方法(EM/SAEM/MICE)计算密集、对高缺失率敏感,且难以建模非随机缺失(MNAR)。
-
现有痛点: (a) EM/SAEM 训练耗时极长(4000+秒 vs AV-LR 63秒);(b) VAE 方法引入复杂隐空间增加优化难度和可解释性损失;(c) MICE 是启发式多重插补,无法传播不确定性。
-
核心 idea: 去掉额外隐变量——直接在缺失值空间做摊销变分推断。一个神经网络 \(q_\phi(x_{mis}|x_{obs}, y)\) 输出缺失值的后验分布,同时学回归参数 \(\beta\) 和缺失机制参数 \(\psi\)。
方法详解¶
整体框架¶
构建生成模型 \(p(y,x) = \text{Logistic}(y|x;\beta) \times \mathcal{N}(x|\mu,\Sigma)\) → 推断网络 \(q_\phi\) 输出缺失值的高斯后验 → 最大化 IWAE (K 个重要性样本) → 对 MNAR 扩展: 加入显式缺失机制 \(p(r|x,y)\)。
关键设计¶
-
直接缺失值空间推断:
- 变分分布 \(q_\phi(x_{mis}|x_{obs}, y)\) 为多元高斯
- 推断网络输出均值 \(\mu_q\) 和 Cholesky 分解的协方差 \(\Sigma_q\)(确保正定)
- 跨样本共享参数(摊销),避免逐样本优化
-
重要性加权 ELBO:
- \(K\) 个重要性样本收紧变分下界: \(w^{(k)} = p(y|x^{(k)})p(x^{(k)})/q_\phi(x^{(k)}_{mis}|x_{obs}, y)\)
- K=1 方差大,K=6 稳定收敛,再多收益递减
- 重参数化技巧支持梯度优化
-
MNAR 扩展:
- 加入选择模型: \(p(r|x,y) = \prod_j \text{Bernoulli}(\sigma(g_{\psi,j}(x,y)))\)
- 神经网络 \(g_\psi\) 显式建模缺失机制
- 在 MNAR 数据上比忽略缺失机制的方法显著更好
- 即使在 MAR 数据上也有微弱优势
实验关键数据¶
主实验¶
| 方法 | 50% MCAR RMSE_β | 60% MNAR AUC | 训练时间 |
|---|---|---|---|
| SAEM | 0.271 | ~0.66 | 4211s |
| MICE | — | 0.659 | 0.1s |
| NotMIWAE | — | 0.738 | — |
| AV-LR | 0.085 | 0.771 | 63s |
真实数据(NHANES)¶
| 方法 | Brier | AUC |
|---|---|---|
| MICE | 0.195 | — |
| MIWAE | 0.203 | 0.770 |
| AV-LR | 0.194 | 0.776 |
关键发现¶
- 比 SAEM 快 67×,比 MICE 在 MNAR 下准确率高 12%
- MNAR 扩展在 MAR 数据上也有微弱改善(协变量-缺失相关性建模的好处)
- 参数估计 RMSE 在高缺失率下退化最小
亮点与洞察¶
- 去掉隐变量的设计是核心亮点: 直接在缺失值空间推断避免了 VAE 的额外复杂性
- 端到端联合优化: 插补和分类参数同时学,不需要两阶段
- 摊销推断的测试速度: 训练后预测仅 0.15s,适合在线部署
局限性 / 可改进方向¶
- 仅支持二分类,多分类/连续结果延伸理论上直接但未验证
- 协变量正态分布假设对混合类型数据可能不成立
- 仅验证到 13 个协变量,高维(>100)可扩展性未知
- MNAR 的可识别性假设较强
相关工作与启发¶
- vs SAEM: EM 迭代求解 vs 摊销一次性推断——训练差 113×,测试差 518×
- vs MICE: 启发式多重插补 vs 端到端概率建模;MICE 在 MNAR 下崩溃 (0.659)
- vs NotMIWAE/DLGLM: VAE 引入额外隐空间增加复杂性;AV-LR 直接在缺失值空间做推断更简洁
评分¶
- 新颖性: ⭐⭐⭐⭐ 无隐变量的摊销 VI 方法论有价值
- 实验充分度: ⭐⭐⭐⭐ 合成+真实数据、多缺失模式、计算时间对比
- 写作质量: ⭐⭐⭐⭐ 数学推导完整
- 价值: ⭐⭐⭐ 应用场景相对专业(统计/临床)