Adjustment for Confounding using Pre-Trained Representations¶

会议: ICML 2025
arXiv: 2506.14329
代码: 无
领域: 优化
关键词: 因果推断, 平均处理效应, 预训练表示, 双机器学习, 内在维度

一句话总结¶

本文研究如何利用预训练神经网络的隐表示来调整非表格数据（如图像、文本）中的混杂因素，形式化了表示充分性条件，证明了稀疏性/可加性假设在可逆线性变换（ILT）下不成立，并基于低内在维度和层次组合模型建立了深度网络的收敛速率理论，从而保证 DML 框架下 ATE 估计的有效推断。

研究背景与动机¶

问题设定¶

因果推断中，平均处理效应（ATE）的估计是核心任务。在观测数据中，混杂因素同时影响处理变量 \(T\) 和结果变量 \(Y\)，导致朴素估计产生偏差。传统方法通常处理表格型混杂变量，但在医学等领域，混杂信息往往隐藏在非表格数据中——例如 CT 扫描图像中的疾病严重程度同时影响治疗选择和预后。

现有方法的局限¶

双机器学习（DML）框架（Chernozhukov et al., 2017）允许使用 ML 方法调整非线性混杂效应，但最初针对表格数据设计
直接将非表格数据送入 DML 面临维度灾难：图像维度极高，而医学场景样本量有限
使用预训练模型提取隐表示 \(Z = \varphi(W)\) 是自然的解决方案，但缺乏理论保证
关键理论障碍：表示 \(Z\) 仅在可逆线性变换（ILT）下可识别，即 \(Z\) 和 \(QZ\)（\(Q\) 为可逆矩阵）在信息论上等价

核心动机¶

论文旨在回答：在什么条件下，预训练表示可以替代原始非表格数据用于 ATE 的混杂调整？ 这需要解决表示非可识别性带来的结构假设失效问题，并建立保证有效统计推断的收敛速率理论。

方法详解¶

整体框架¶

论文的理论框架分为三个层次：

表示充分性（Section 3.1）：预训练表示何时包含足够的混杂信息
收敛速率分析（Section 4-5）：在 ILT 非可识别性下，什么假设能保证快速收敛
DML 推断有效性（Section 5.3）：将以上结果整合到 DML 估计器中

给定 \(n\) 个 i.i.d. 观测 \((T, W, Y)\)，目标是估计：

\[\text{ATE} \coloneqq \mathbb{E}[\mathbb{E}[Y|T=1,W] - \mathbb{E}[Y|T=0,W]]\]

其中 \(W\) 是非表格混杂数据，\(T \in \{0,1\}\) 是二值处理变量。

关键设计¶

1. 表示充分性条件¶

论文形式化了三种递进的充分性条件（Definition 3.1）：

\(P\)-valid：最弱条件，保证 \(Z\) 是有效的调整集，即 \(\mathbb{E}_P[\mathbb{E}_P[Y|T=t,\sigma(Z)]] = \mathbb{E}_P[\mathbb{E}_P[Y|T=t,W]]\)
\(P\)-OMS（结果均值充分）：几乎处处相等，即 \(\mathbb{E}[Y|T=t,Z] = \mathbb{E}[Y|T=t,W]\)
\(P\)-ODS（结果分布充分）：\(Y \perp W | T, Z\)，最强条件

关键洞察：\(P\)-valid 是保证 ATE 正确估计的充分且必要条件，无需最强的 ODS 条件。

2. ILT 下的不变性分析¶

这是本文最核心的理论贡献。论文系统分析了不同结构假设在 ILT 下的不变性：

结构假设	ILT 不变性	对应收敛速率	适用性
光滑性（\(s\)-smooth）	✅ 保持	\(n^{-s/(2s+d)}\)	合理但不足
可加性（Additive）	❌ 不保持	\(n^{-s/(2s+1)}\)	不合理
稀疏性（Sparse）	❌ 不保持	\(\sqrt{p\log(d/p)/n}\)	不合理
内在维度（\(d_\mathcal{M}\)）	✅ 保持	\(n^{-s/(2s+d_\mathcal{M})}\)	合理

Lemma 4.2 证明了对于 Haar 测度下几乎所有的 ILT \(Q\)：若 \(f\) 可加且含非线性分量，则 \(f \circ Q^{-1}\) 不可加；若 \(f\) 是稀疏线性的，则 \(f \circ Q^{-1}\) 不稀疏。

这意味着 Lasso、随机森林、基于坐标轴分裂的树方法等依赖稀疏性/可加性假设的方法，在预训练表示空间中理论上不能保证快速收敛。

3. 层次组合模型 + 流形结构（Assumption 5.2）¶

论文提出将流形假设与层次组合模型（HCM）结合的新假设：

目标函数可分解为 \(f_0 = f \circ \psi\)，其中： - \(\mathcal{M}\) 是紧致的 \(d_\mathcal{M}\) 维光滑流形 - \(\psi: \mathcal{M} \to \mathbb{R}^p\) 是 \(s_\psi\)-光滑映射（流形到欧氏空间的嵌入） - \(f\) 是 HCM（层次组合模型）的 \(k\) 层结构

HCM 的定义（Definition 5.1）是递归的： - Level 0：\(f(x) = x_j\)（选取某个坐标） - Level \(k\)：\(f(x) = h(h_1(x), \ldots, h_p(x))\)，其中 \(h\) 是 \(s\)-光滑函数，\(h_i\) 是 level \(k-1\) 的 HCM

Lemma 5.3 证明了 Assumption 5.2 在 ILT 下不变——这是关键的理论保证。HCM 的层次结构天然契合深度神经网络的逐层计算，使得 DNN 能高效利用此结构。

4. DNN 收敛速率（Theorem 5.5）¶

在 Assumption 5.2 下，存在前馈 DNN 架构使得：

\[\|\hat{f} - f_0\|_{L_2(P_Z)} = O_p\left(\max_{(s,p) \in \mathcal{P} \cup (s_\psi, d_\mathcal{M})} n^{-s/(2s+p)}\right)\]

速率仅取决于约束集 \(\mathcal{P}\) 和流形嵌入参数 \((s_\psi, d_\mathcal{M})\) 中的最差情况对。利用 Whitney 嵌入定理，\(p\) 可取 \(2d_\mathcal{M}\)，\(s_\psi = \infty\)，从而速率主要由流形内在维度控制。

损失函数 / 训练策略¶

DML 估计器¶

采用交叉拟合（cross-fitting）策略：将样本分为 \(K\) 折，每折的 nuisance 函数在其余折上训练。最终 ATE 估计器使用正交化得分函数（orthogonalized score）：

\[\rho(T_i, Y_i, Z_i; g, m) = g(1, Z_i) - g(0, Z_i) + \frac{T_i(Y_i - g(1,Z_i))}{m(Z_i)} + \frac{(1-T_i)(Y_i - g(0,Z_i))}{1 - m(Z_i)}\]

其中 \(g(t,z) = \mathbb{E}[Y|T=t, Z=z]\) 是结果回归函数，\(m(z) = \mathbb{P}[T=1|Z=z]\) 是倾向性得分。

DML 推断有效性（Theorem 5.7）¶

当 \(g\) 和 \(m\) 满足 Assumption 5.2，且满足正则条件：

\[\min_{(s,p) \in \mathcal{P}_g \cup (s_\psi, d_\mathcal{M})} \frac{s}{p} \times \min_{(s',p') \in \mathcal{P}_m \cup (s'_\psi, d_\mathcal{M})} \frac{s'}{p'} > \frac{1}{4}\]

则 DML 估计器满足渐近正态：\(\sqrt{n}(\widehat{\text{ATE}} - \text{ATE}) \to \mathcal{N}(0, \sigma^2)\)。该条件刻画了光滑度与维度之间的权衡——每个组合函数的输入维度需小于其光滑度的两倍。

实验关键数据¶

主实验¶

实验使用两种非表格数据模拟混杂场景：

数据集	数据类型	预训练模型	表示维度 \(d\)	样本量
IMDb Movie Reviews	文本	BERT (bert-base-uncased)	768	50,000
Chest X-ray (Kermany)	图像	DenseNet-121 (TorchXRayVision)	1,024	5,863

Label Confounding 实验结果（IMDb，5 次模拟）：

估计器	方法类型	ATE 偏差	95% CI 覆盖	说明
Naive	不调整	强负偏差	不覆盖	未考虑混杂
DML (Lasso)	稀疏假设	偏差显著	不覆盖	ILT 下稀疏性失效
DML (RF)	树方法	偏差显著	不覆盖	坐标轴分裂不适用
DML (Linear)	无惩罚线性	无偏	覆盖	ILT 不变的估计器
S-Learner	单一回归	偏差显著	不覆盖	缺少双稳健性
Oracle	真标签调整	无偏	覆盖	基准上界

消融实验¶

Complex Confounding 实验（X-ray，自编码器构造混杂）：

配置	ATE 偏差	CI 覆盖	说明
DML + 神经网络	小	高覆盖	HCM 结构下 DNN 适应低维流形
DML + 随机森林	大	低覆盖	稀疏假设在 ILT 下失效
S-Learner + 神经网络	小	CI 过于乐观	缺少双稳健性
DML (预训练) vs DML (CNN)	预训练无偏 / CNN 偏差大	仅预训练覆盖	500 样本下预训练优势明显

关键发现¶

ILT 非不变方法失败：Lasso 和随机森林在预训练表示上表现不佳，因为稀疏性/可加性假设在 ILT 下不成立——这正是理论预测的
内在维度远低于环境维度：X-ray 表示的内在维度约 \(d_\mathcal{M} \approx 12\)，而环境维度 \(d = 1024\)，支持流形假说
预训练至关重要：在有限样本（500 张图）下，使用预训练表示的 DML 无偏，而从头训练 CNN 的 DML 有偏
DML 的双稳健性重要：S-Learner 即使用同样的神经网络也不能保证有效推断，只有 DML 的正交化得分能正确覆盖

亮点与洞察¶

理论与实践的紧密对应：Lemma 4.2 预测 Lasso/RF 会失败 → 实验完美验证；Theorem 5.5 预测 DNN 适应低维结构 → 实验确认
从"什么不行"到"什么行"的完整论证：先证明稀疏/可加性不合理（负面结果），再建立基于流形+HCM 的替代理论（正面结果）
实际指导意义：在预训练表示上做因果推断时，应优先使用神经网络（而非 Lasso/树方法）作为 nuisance 估计器
HCM + 流形假设的提出具有普适性，不仅适用于 ATE 估计，可推广到其他半参数推断任务

局限与展望¶

单一模态假设：仅考虑单一非表格数据源的混杂，未讨论多模态融合场景（如图像+文本同时作为混杂）
仅限 ATE：未涉及 ATT（处理组平均处理效应）或 CATE（条件平均处理效应）的推断
预训练质量假设：理论依赖于预训练表示满足 \(P\)-valid 条件，但实践中难以验证此条件是否成立
HCM 结构的验证：难以直接检验 nuisance 函数是否具有 HCM 结构，约束集 \(\mathcal{P}\) 的参数选取依赖领域知识
计算成本：未讨论不同 nuisance 估计器的计算效率差异

评分¶

维度	分数 (1-10)	说明
创新性	8	首次系统分析预训练表示在因果推断中的理论保证
理论深度	9	从不变性分析到收敛速率到推断有效性，层次清晰
实验验证	7	实验设计精巧但场景偏合成，缺乏真实因果任务
实用价值	7	提供了明确的方法选择指导，但条件验证仍困难
写作质量	8	逻辑链条清晰，理论动机和实验对应良好
总分	7.8	理论贡献扎实的因果推断与表示学习交叉工作