跳转至

Direct Doubly Robust Estimation of Conditional Quantile Contrasts

会议: ICLR 2026 arXiv: 2601.19666 代码: 补充材料中提供复现代码 领域: 因果推理 关键词: heterogeneous treatment effect, conditional quantile comparator, doubly robust estimation, causal inference, quantile treatment effect

一句话总结

提出首个对条件分位数比较器 (CQC) 的直接估计方法,通过显式参数化 CQC 并结合双重鲁棒梯度下降,在理论上保持双重鲁棒性的同时,实验中在估计精度、可解释性和计算效率上全面优于现有的间接反演方法。

研究背景与动机

  1. 领域现状: 异质性处理效应 (HTE) 分析旨在学习治疗效果对不同个体的差异化影响。CATE(条件平均处理效应)和 CQTE(条件分位数处理效应)是两大经典估计量——CATE 可解释性强但只给出均值信息,CQTE 提供分位数粒度信息但解释性较弱。
  2. 现有痛点: 近期提出的 CQC(条件分位数比较器)试图兼具两者优点,提供从未处理响应到处理响应的传输映射。然而,现有 CQC 估计方法 (Givens et al., 2024) 需要先估计一个中间量(CCDF 对比函数 \(h\)),再通过反演获得 CQC 估计——这带来三大问题:无法直接建模/约束 CQC;估计误差依赖于中间函数复杂度而非 CQC 本身;评估计算开销大。
  3. 核心矛盾: CQC 自身可能非常简洁(例如治疗效果是响应的线性缩放 \(g^*(y_0|\mathbf{x}) = 2y_0\)),但间接反演方法的估计精度却受限于更复杂的中间函数 \(h\)
  4. 本文要解决什么: 提供首个直接估计 CQC 的方法,允许对 CQC 进行显式参数化,使估计误差直接依赖于 CQC 的复杂度。
  5. 切入角度: 将 CQC 估计转化为 M-估计问题——构造一个以 CQC 为极小值点的损失函数,推导其梯度的双重鲁棒表达式,从而实现基于梯度下降的直接估计。
  6. 核心idea一句话: 通过构造损失函数并推导其双重鲁棒梯度,绕开中间函数反演,首次实现 CQC 的直接参数化估计。

方法详解

整体框架

给定观测数据 \(D = \{(Y^{(i)}, X^{(i)}, A^{(i)})\}_{i=1}^{2n}\),算法分两步:

  1. 样本分割: 将数据分为 \(D_\mathcal{I}\)(用于估计扰动参数 \(\hat{\pi}, \hat{F}_0, \hat{F}_1\))和 \(D_\mathcal{J}\)(用于通过梯度下降拟合 CQC 参数 \(\theta\)
  2. 梯度下降: 在 \(D_\mathcal{J}\) 上使用双重鲁棒梯度 \(\hat{\zeta}_{dr}\) 对 CQC 参数 \(\theta\) 进行随机梯度下降

关键设计

  1. 损失函数构造 (Definition 2):
  2. 做什么:构造一个以真实 CQC \(g^*\) 为极小值点的损失函数
  3. 核心思路:由于 CCDF 对比函数 \(h(y_1, y_0, \mathbf{x}) = F_1(y_1|\mathbf{x}) - F_0(y_0|\mathbf{x})\) 关于 \(y_1\) 单调递增,任何导数等于 \(h\) 的函数在 \(h = 0\)(即 \(y_1 = g^*(y_0|\mathbf{x})\))处取最小值。由此定义: $\(\bar{\ell}(y_1, y_0, \mathbf{x}) = \int_{g^*(y_0|\mathbf{x})}^{y_1} h(t, y_0, \mathbf{x}) dt\)$
  4. 设计动机:损失函数与 CQC 估计误差直接相关(Proposition 1 给出了三种不同条件下的上下界),使得估计精度取决于 CQC 本身的复杂度而非中间函数

  5. 双重鲁棒梯度 \(\zeta_{dr}\) (Equation 5):

  6. 做什么:推导损失函数梯度的双重鲁棒 Monte-Carlo 估计器
  7. 核心思路: $\(\zeta_{dr}(\theta, y_0, \mathbf{z}) = \nabla_\theta g_\theta(y_0|\mathbf{x}) \left( \frac{a}{\pi(\mathbf{x})}[\mathbb{1}\{y \le g_\theta\} - F_1(g_\theta)] - \frac{1-a}{1-\pi(\mathbf{x})}[\mathbb{1}\{y \le y_0\} - F_0(y_0)] + F_1 - F_0 \right)\)$
  8. 设计动机:IPW(逆概率加权)只需倾向得分,但对其估计误差敏感;双重鲁棒形式同时利用 CCDF 估计,使得两类扰动参数的误差相乘而非相加,大幅提高鲁棒性

  9. 显式参数化 CQC:

  10. 做什么:允许用户选择线性模型、核方法、神经网络等直接对 CQC 进行参数化
  11. 核心思路:线性模型 \(g_\theta(y_0|\mathbf{x}) = (\theta_{sc}^\top \mathbf{x} + \theta_{sc,0})y_0 + (\theta_{sh}^\top \mathbf{x} + \theta_{sh,0})\),分别建模缩放和平移分量
  12. 设计动机:直接参数化使模型具有可解释性,并能通过正则化、带宽选择等手段施加先验约束

损失函数 / 训练策略

  • 样本分割 + 投影梯度下降: 参数初始化为 \(\theta^{(1)} = 0\),每步投影到 \(\|\theta\| \le B\) 的球内
  • 学习率 \(\mu_t = \frac{Bc}{2\rho\sqrt{n}}\)(一般情况)或 \(\mu_t = \frac{1}{\xi_2 \eta_2 n}\)(密度有下界时)
  • 最终估计取所有迭代的平均 \(\hat{\theta} = \frac{1}{n}\sum_{t=1}^n \theta^{(t)}\)

实验关键数据

主实验

数据生成: \(X \sim N(0, I_{10})\), \(Y|X,A \sim N(\sin(\pi \mathbf{v}^\top \mathbf{x}) + a\gamma \mathbf{v}^\top \mathbf{x}, 1)\), \(\pi(\mathbf{x}) = \sigma(\mathbf{v}^\top \mathbf{x})\)

真实 CQC: \(g^*(y_0|\mathbf{x}) = y_0 + \gamma \mathbf{v}^\top \mathbf{x}\)(线性),而 CCDF 对比函数包含高频正弦项

实验 Est. DR-Lin Est. DR-NN Est. Inv. DR Est. IPW
CQC 斜率 γ=1 (MAE) 最低 接近 DR-Lin 较高 最高
CQC 斜率 γ=4 (MAE) 最低 接近 DR-Lin 显著劣化 严重劣化
样本量 n=200 (MAE) 最低 略高 较高
样本量 n=2000 (MAE) 最低 略高 较高

消融实验

对扰动参数估计误差的敏感度(向 logits 添加不同水平的有偏噪声):

噪声水平 Est. DR-Lin Est. DR-NN Est. Inv. DR Est. IPW
0 (无额外噪声) 最低 接近最低 中等 中等偏高
0.5 最低 略高 接近 较高
1.0 最低 略高 略高于 DR-Lin
2.0 接近 略高 接近 显著高

关键发现

  1. 直接参数化方法(DR-Lin, DR-NN)在所有样本量和 CQC 斜率设置下全面优于间接反演方法
  2. 当 CQC 斜率增大时,直接方法的优势更加显著——因为 CCDF 对比函数变复杂但 CQC 保持简洁
  3. 对扰动参数误差的鲁棒性:两种方法都展现双重鲁棒性,但间接方法在高噪声下略更不敏感
  4. 神经网络模型(DR-NN)在不知道真实参数形式时也表现良好,仅略逊于正确指定的线性模型
  5. 真实数据(就业项目): CQC 估计揭示了随年龄增长,治疗效果从乘性缩放转向均匀平移

亮点与洞察

  1. 首次直接估计 CQC: 绕开中间函数反演,使估计精度与 CQC 复杂度直接挂钩
  2. 理论收敛保证: Theorem 3 给出有限样本界,一般情况 \(O(1/\sqrt{n})\),密度有下界时 \(O(\log n / n)\)
  3. 显式参数化带来的解释性: 可以直接检查模型参数理解治疗效果的结构(如线性模型中的缩放/平移分量),而非只能在采样点上评估
  4. CQC 在非均匀效应下的简洁性: 当治疗效果是缩放型(如收入翻倍),CQC 是简单线性 \(g^*(y) = 2y\),而 CATE 和 CQTE 都包含复杂高频项

局限性 / 可改进方向

  1. 直接估计器对扰动参数误差的实际敏感度略高于间接方法(尽管理论上都是双重鲁棒的),值得进一步研究
  2. 双重鲁棒性是关于损失函数而非直接关于 CQC 估计误差的——只在特定条件(Proposition 1(b))下才能转化为 CQC 误差的界
  3. 收敛结果仅适用于参数线性模型(\(g_\theta = \theta^\top f\)),未覆盖非线性参数化(如深度神经网络)
  4. 未来方向:探索是否能给出条件期望形式的 CQC 双重鲁棒估计器(类似 CATE 的 DR-learner)

相关工作与启发

  • CATE 估计: Kennedy (2023b) 的 DR-learner 给出了 CATE 的双重鲁棒直接估计——本文将类似思想推广到了分位数级别的 CQC
  • CQTE 估计: Kallus & Oprescu (2023) 的双重鲁棒 CQTE 估计——CQC 与 CQTE 有关系 \(\tau_q\{F_0(y_0|\mathbf{x})|\mathbf{x}\} = g(y_0|\mathbf{x}) - y_0\)
  • 随机傅里叶特征: 线性参数化假设可通过随机傅里叶特征扩展到非参数核方法

评分

  • 新颖性: ⭐⭐⭐⭐ 首个直接 CQC 估计器,方法切入角度巧妙(从 M-estimation 出发构造损失),但整体在 HTE 双重鲁棒框架内
  • 实验充分度: ⭐⭐⭐⭐ 多维度仿真对比(斜率、样本量、噪声)+ 真实数据 + 消融,但缺少高维 X 和非线性 CQC 的实验
  • 写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰,数学推导严谨,从直觉→形式化一步步展开,CQC vs CATE/CQTE 的 Figure 1 可视化非常直观
  • 价值: ⭐⭐⭐⭐ 对因果推理中异质性处理效应估计有实质推进,但 CQC 本身仍是较新的估计量,应用范围有待拓展