跳转至

Coupling Generative Modeling and an Autoencoder with the Causal Bridge

会议: NeurIPS 2025
arXiv: 2509.25599
代码: 待确认
领域: 因果推断 / 生成模型 / 代理变量
关键词: causal bridge, proxy variable, unobserved confounder, autoencoder, treatment effect, survival analysis

一句话总结

在存在未观测混淆因子的因果推断中,提出将生成模型与自编码器耦合来提升因果桥函数 (causal bridge) 的估计质量——通过共享编码器在处理/控制/结果变量间传递统计强度,并将框架扩展到生存分析。

研究背景与动机

  1. 领域现状:估计处理 (treatment) 对结果 (outcome) 的因果效应是众多领域的核心问题。当存在未观测混淆因子 \(U\) 时,标准方法(无混淆假设、工具变量)可能不适用。代理变量方法使用两组与 \(U\) 相关的可观测控制变量 \(Z\)(处理控制)和 \(W\)(结果控制)来通过因果桥函数估计因果效应。

  2. 现有痛点:(a) 因果桥函数 \(b(W,x)\) 需要求解 Fredholm 积分方程 \(\mathbb{E}(Y|x,z) = \mathbb{E}(b(W,x)|x,z)\),实际求解困难;(b) DFPV 方法用迭代两步学习,但未能灵活利用条件采样;(c) CEVAE 需要设定先验 \(p(U)\) 且 KL 项导致训练不稳定;(d) 现有方法未处理生存分析 (survival) 结果。

  3. 核心矛盾:代理变量方法的理论框架(Fredholm 方程)虽然优雅,但在实践中如何有效地从有限数据学习桥函数,特别是在样本量较小时,缺乏系统化的统计强度共享机制。

方法详解

因果桥函数 (Causal Bridge)

因果图:\(U\) 是未观测混淆因子,影响处理 \(X\) 和结果 \(Y\)\(Z\) 是处理控制变量,\(W\) 是结果控制变量。核心方程:

\[\mathbb{E}(Y|x,z) = \mathbb{E}(b(W,x)|x,z), \quad \forall x, z\]

若此方程有解,则因果效应 \(\mathbb{E}[Y|do(X=x)] = \mathbb{E}[b(W,x)]\)

新理论贡献

Theorem 3(因果桥平均误差界):假设 \(\mathbb{E}[Y|x,W,U]\) 关于 \(U\)\(C\)-Lipschitz 的,\(\|U\| \leq R\),则:

\[\mathbb{E}_{Z \sim p(Z|x)}\left[|\mathbb{E}[Y|x,Z] - \mathbb{E}_{W \sim p(W|x,Z)}[b(W,x)]|\right] \leq CR \cdot \sqrt{2I(U;Z|W,x)}\]

桥函数估计误差受条件互信息 \(I(U;Z|W,x)\) 控制——当 \(W\)\(U\) 的良好(低噪声)代理时,误差小。

Corollary 1:若 \(W = \Psi(U) + \varepsilon\),其中 \(\Psi\) 可逆且 \(\varepsilon\)\((U,Z,X)\) 独立,则 \(I(U;Z|W,x) \leq C_0 \sigma_\varepsilon^2\)

生成模型 + 自编码器框架

1. 桥函数的广义形式

\[b(W,x) = \int dU \; g(x, W, U) \; p(U|W,x)\]

其中 \(g\) 不必等于 \(\mathbb{E}[Y|x,W,U]\)——允许更灵活的学习。用生成器 \(U = h_{\theta_U}(W, x, \epsilon)\)\(\epsilon \sim \mathcal{N}(0,I)\) 来采样。

2. 结果桥损失

\[\mathcal{L}_{\theta_Y} = \sum_{i=1}^{N} \left(y_i - \mathbb{E}_{p(W|x_i,z_i)} \mathbb{E}_{p(\epsilon)} [g_{\theta_Y}(x_i, W, h_{\theta_U}(W, x, \epsilon))]\right)^2\]

3. 自编码器共享统计强度:同时建模处理 \(X\) 和其控制 \(Z\) 的重建:

\[\mathcal{L}_{\theta_X} = \sum_{i=1}^{N} \left(x_i - \mathbb{E}_{p(W|x_i,z_i)} \mathbb{E}_{p(\epsilon)} [g_{\theta_X}(h_{\theta_U}(W, x_i, \epsilon), z_i)]\right)^2\]
\[\mathcal{L}_{\theta_Z} = \sum_{i=1}^{N} \left(z_i - \mathbb{E}_{p(W|x_i,z_i)} \mathbb{E}_{p(\epsilon)} [g_{\theta_Z}(h_{\theta_U}(W, x_i, \epsilon))]\right)^2\]

关键:编码器 \(h_{\theta_U}\)\((Y, X, Z)\) 三个损失间共享——通过联合优化 \(\mathcal{L}_{\theta_Y} + \mathcal{L}_{\theta_X} + \mathcal{L}_{\theta_Z}\) 提升 \(h_{\theta_U}\) 质量,尤其在小样本时。

4. 学习流程(两步,非迭代): 1. 用数据 \(\mathcal{D}_1 = \{(x_i, z_i, w_i)\}\) 学习条件生成模型 \(p(W|x,z)\) 2. 用 \(\mathcal{D}_2 = \{(x_i, z_i, y_i)\}\) 优化共享编码器 \(\theta_U\)、桥 \(\theta_Y\) 和自编码器 \(\{\theta_X, \theta_Z\}\)

生存分析扩展

对生存结果 \((Y, E)\)\(Y\) 为观测时间,\(E\) 为事件指示),用 Cox 比例风险模型:

\[\mathcal{L}_{\theta_Y} = \sum_{i: e_i=1} \rho_i - \log\left(\sum_{j: y_j > y_i} \exp(\rho_i)\right)\]

其中 \(\rho_i = \mathbb{E}_{p(W|x_i,z_i)} \mathbb{E}_{p(\epsilon)} [g_{\theta_Y}(x_i, W, h_{\theta_U}(W, x, \epsilon))]\)

因果估计量为风险比 (HR):\(\text{HR} = \exp(b(W, X=1)) / \exp(b(W, X=0))\)

实验关键数据

合成数据:Demand & dSprite

方法 Demand MSE (N=1k) Demand MSE (N=5k) dSprite MSE (N=1k) dSprite MSE (N=5k)
DFPV 基线 基线 基线 基线
DFPV + 采样 显著改善 显著改善 改善 改善
CB 进一步改善 进一步改善 进一步改善 进一步改善
CB + AE 最优 最优 最优 最优
  • 使用生成模型采样 \(p(W|x,z)\)(100 个样本)比 DFPV 的迭代学习显著更好
  • 广义桥模型 \(g_{\theta_Y}(x, W, h_{\theta_U})\) 进一步改善估计
  • 自编码器在小样本 (N=1k) 时收益最大——通过共享 \(h_{\theta_U}\) 传递统计强度

真实数据:Framingham 心血管研究(与 RCT 对比)

方法 HR 估计 95% CI 与 RCT 一致性
CoxPH-Uniform >1 (错误方向) 包含1
CoxPH-IPW >1 (错误方向) 包含1
CoxPH-OW <1 接近1 部分
CB <1 较宽
CB + AE <1 最紧,远离1 ✓✓
RCT (参考) <1 - 金标准
  • CoxPH-Uniform 和 CoxPH-IPW 给出 HR>1(他汀增加 CVD 风险),完全错误——因为高危患者更可能服用他汀(混淆效应)
  • CB + AE 给出与随机对照试验 (RCT) 最一致的结果,且 95% CI 最紧、远离 HR=1

亮点与洞察

  • 理论-方法-实验的完整链条:从信息论误差界 (Theorem 3) 到设计启示(\(W\) 应是 \(U\) 的低噪声代理)到方法设计(共享编码器)到实验验证(RCT 金标准对比)
  • 自编码器共享机制简洁有效:不需要 VAE 的 KL 项(避免了 CEVAE 的不稳定性),只用重建损失即可正则化隐变量空间
  • 生存分析扩展是因果桥框架的新应用方向——在医学研究中有重要实用价值
  • 与 RCT 的对比是因果推断论文中罕见的金标准验证

局限性 / 可改进方向

  • 假设验证困难:完备性假设 (A4)、代理变量的条件独立性在实际中难以检验
  • 代理变量的定义/划分:将协变量分配到 \(Z\)\(W\) 需要领域知识或启发式方法
  • Theorem 3 的界可能不紧:信息论界的常数 \(CR\) 可能较大
  • 模型架构简单:作者有意保持简单以证明方法本身的价值,但更复杂的架构可能进一步提升
  • 仅验证了二值处理 (\(X \in \{0,1\}\)):连续处理的扩展情况未探索

相关工作对比

  • vs DFPV (Xu et al. 2021):DFPV 用迭代两步学习,本文用顺序两步 + 条件采样 + 自编码器,显著改善
  • vs CEVAE (Louizos et al. 2017):CEVAE 需要先验 \(p(U)\) 和 KL 项,训练不稳定;本文用自编码器替代 VAE,避免 KL 困难
  • vs CoxPH + IPW/OW:传统加权方法在强混淆下失效,因果桥方法更稳健
  • vs Ying et al. (2022):他们也用桥函数建模风险函数,但施加刚性形式约束且无 RCT 参考

评分

  • 新颖性: ⭐⭐⭐⭐ 生成模型+自编码器耦合因果桥是新颖的组合,信息论误差界有理论贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据+RCT金标准对比+消融实验,验证链完整
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,但符号较多,部分细节需要来回翻阅
  • 价值: ⭐⭐⭐⭐ 对代理变量因果推断领域有扎实的方法论贡献,生存分析扩展增加实用性