Efficient Adaptive Experimentation with Noncompliance¶
会议: NeurIPS 2025 arXiv: 2505.17468 代码: GitHub 领域: 医学图像 关键词: 自适应实验, 工具变量, 非依从性, 半参数效率, 因果推断
一句话总结¶
提出 AMRIV——首个面向带非依从性(noncompliance)的自适应实验的半参数高效、多重鲁棒的ATE估计器,结合方差最优的工具变量分配策略和序贯推断保证。
研究背景与动机¶
-
领域现状:自适应实验通过根据累积数据调整分配策略来高效估计处理效应,已被 FDA 正式认可。直接分配处理的自适应 ATE 估计已有成熟工具包(A2IPW、Neyman 分配等)。
-
现有痛点:在很多现实场景中,处理不能直接分配,只能通过工具变量(IV)鼓励。例如:
- TripAdvisor 实验:可以随机化注册界面(IV),但用户是否订阅(处理)是自愿的
- 临床试验:医生可以推荐药物(IV),但患者是否遵从(处理)不可控
-
存在非依从性(noncompliance)导致处理和 IV 不一致,传统方法会产生偏差
-
核心矛盾:
- 自适应实验的理论在直接分配场景已成熟,但仅能分配工具变量而处理内生的场景几乎空白
-
现有 IV 方法(DeepIV、MRIV 等)是非自适应的或不追求半参数效率
-
本文要解决什么:将完整的现代半参数工具——高效影响函数、自适应策略学习、鲁棒插补估计、随时有效推断——引入带非依从性的自适应 IV 设置。
-
切入角度:基于 Wang & Tchetgen Tchetgen 的非混杂依从性假设和多重鲁棒影响函数,推广到自适应设置。
-
核心idea一句话:推导带 IV 的自适应实验的半参数效率界和最优分配策略,并构建序贯估计器实现该界。
方法详解¶
整体框架¶
问题设置:\(T\) 轮序贯实验,每轮观察协变量 \(X_t\),分配工具变量 \(Z_t \sim \pi_t(\cdot|X_t, \mathcal{H}_{t-1})\),观察处理 \(A_t = A_t(Z_t)\) 和结果 \(Y_t\)。目标估计 ATE \(\tau = \mathbb{E}[Y(1)] - \mathbb{E}[Y(0)]\)。
关键假设: - Assumption 1(标准 IV):排除性约束、独立性(\(Z \perp U|X\))、相关性(\(\text{Cov}(Z,A|X) \neq 0\)) - Assumption 2(非混杂依从性):\(Y(1) - Y(0) \perp A(1) - A(0) | X\)
ATE 识别:\(\tau = \mathbb{E}_X\left[\frac{\delta^Y(X)}{\delta^A(X)}\right]\),其中 \(\delta^Y(X)\) 和 \(\delta^A(X)\) 分别是 IV 诱导的结果和处理变化。
关键设计¶
1. 半参数效率界(Theorem 1)¶
其中残差方差 \(\sigma^2(z,X) = \text{Var}(Y - A\delta(X) | Z=z, X)\)。
2. 最优工具变量分配(Corollary 2)¶
关键洞察: - 最优策略向残差方差更大的臂倾斜 - 残差方差同时依赖结果噪声和依从性噪声——与标准 ATE 设置的Neyman分配不同 - 当 \(\delta^A(X) \to 1\)(完美依从)退化为经典 Neyman 分配 - 当 \(\delta^A(X) \to 0\)(低依从)趋向均匀分配
3. AMRIV 估计器¶
影响函数 \(\phi\) 是基于自适应策略 \(\pi_t\) 和序贯估计的 nuisance \(\hat{\eta}_t\) 的再中心化高效影响函数:
关键特性:所有 nuisance 估计仅使用历史数据 \(\mathcal{H}_{t-1}\),确保近鞅结构。
4. 算法组件¶
- Burn-in 阶段:固定策略 \(\pi_{\text{init}}\)(如均匀随机化)\(T_0\) 轮
- 自适应阶段:插补最优策略 \(\tilde{\pi}_t\) + 截断 \(\pi_t = \text{clip}(\tilde{\pi}_t, 1/k_t, 1-1/k_t)\)
- 残差方差估计:两阶段交叉拟合消除有限样本偏差
- Nuisance 学习器:可用任意非参数回归器(k-NN、随机森林、神经网络)
理论保证¶
Theorem 3(渐近正态性)¶
当 \(\pi = \pi^*\) 时达到半参数效率。仅需 \(L_2\) 一致性(无需 Donsker 条件)。
Theorem 4(收敛率)¶
Corollary 5(多重鲁棒性)¶
只要 \(\hat{\delta}\) 或 \(\hat{\delta}^A\) 之一 \(L_2\)-一致,AMRIV 就是一致的。比静态 MRIV 鲁棒性更强(因为自适应控制 \(\pi_t\) 赋予了对 \(\mu^Y, \mu^A\) 误指定的额外鲁棒性)。
实验关键数据¶
合成数据实验(T=2000, 1000 trajectories)¶
单侧非依从:\(\mu^A(0,X) = 0\),依从率 \(\delta^A(x) = \sigma(-2x)\)
| 指标 | AMRIV | AMRIV-NA | DM | DM-NA | A2IPW | Oracle |
|---|---|---|---|---|---|---|
| 效率(Norm. MSE) | 接近Oracle | 恒定gap | 随T增大 | 随T增大 | 有偏 | 1.0 |
| 一致性 | ✓ 收敛 | ✓ 收敛 | ✓ | ✓ | ✗ 不收敛 | ✓ |
| 95% CI 覆盖率 | 名义水平 | 名义水平 | 不足 | 不足 | 严重不足 | — |
关键观察¶
- AMRIV 逼近 Oracle 基准(使用真实 nuisance),自适应版本显著优于非自适应
- A2IPW 有偏且不收敛——因为没有修正处理选择中的未观测混杂
- AMRIV-MS(误指定版本)保持一致但覆盖率略低于名义水平
- DM 方法在 δ 误指定时发散,而 AMRIV-MS 仍收敛——体现多重鲁棒性
- 自适应设计在低依从区域尤其有益:将更多分配给 \(Z=1\) 以补偿稀疏处理uptake
半合成数据(TripAdvisor)¶
结果与合成实验一致:自适应 IV 分配提升效率,AMRIV 实现最优覆盖和一致性。
亮点与洞察¶
- 填补重要空白:首次将完整的半参数自适应实验工具包引入 IV/非依从性设置
- 效率界的精细分析:揭示了最优分配同时平衡结果方差和依从方差的非平凡结构
- Neyman 分配的优雅泛化:完美依从 → 经典 Neyman;低依从 → 趋向均匀
- 多重鲁棒性比静态更强:自适应控制 \(\pi_t\) 提供额外鲁棒维度
- 随时有效推断:支持序贯停止决策(通过渐近置信序列)
局限性/可改进方向¶
- Assumption 2(非混杂依从性)较强:实践中可能不满足,此时估计的是 ACLATE 而非 ATE
- 计算开销:每轮更新所有 nuisance 估计(虽然可用 mini-batch)
- 仅考虑二元 IV 和二元处理:多值设置的扩展不直接
- 有界性假设(Assumption 3)在重尾分布下可能不适用
- 截断参数 \(k_t\) 的选择缺乏系统性指导
相关工作与启发¶
- 泛化了 A2IPW (Kato et al.)、Cook et al. 的自适应 ATE 方法到 IV 设置
- 建立在 MRIV (Wang & Tchetgen Tchetgen) 的静态半参数框架上
- 核心启发:在不能直接控制处理的场景(这在医学、社会科学中极常见),自适应分配鼓励/工具变量可以显著提升因果效应估计的效率
评分¶
⭐⭐⭐⭐ (4/5)
理由:问题动机强烈(非依从性是现实痛点),理论贡献完整(效率界+最优策略+收敛率+多重鲁棒+随时有效推断),实验虽基于模拟但验证充分。局限在于较强的依从性假设和仅限二元设置。