跳转至

Learning Subgroups with Maximum Treatment Effects without Causal Heuristics

会议: AAAI 2026
arXiv: 2511.20189
代码: https://github.com/ylincen/causal-subgroup
领域: 因果推理 / 子群发现
关键词: 处理效应, 子群发现, CART, 分区模型, 因果推断

一句话总结

在 SCM 框架下证明最大处理效应子群必须具有同质点效应(定理1),在分区模型假设下证明最优子群发现可化简为标准监督学习(定理2),用 CART+Gini 指数即可实现——在 77 个 ACIC-2016 半合成数据集上均值处理效应 10.54(vs 次优 7.84),51.9% 排名第一。

研究背景与动机

  1. 领域现状:发现具有最大平均处理效应的子群是因果推断的核心问题。现有方法(CausalTree、QUINT、SIDES 等)设计专门的"因果启发式"来构建分裂准则。

  2. 现有痛点:因果启发式脆弱——(1) 处理/控制组不平衡导致树生长时分裂质量差;(2) 专用分裂准则缺乏理论最优保证;(3) 不同方法的假设差异大,结果不一致。

  3. 核心矛盾:因果子群发现真的需要专门的"因果"方法吗?还是标准监督学习就够了?

  4. 本文要解决什么? 证明在合理假设下,最大效应子群发现 = 标准分类/回归问题。

  5. 切入角度:理论驱动——先证明同质性定理(定理1),再在分区模型下证明简化定理(定理2),最后用最简单的 CART 实现。

  6. 核心 idea 一句话:最大处理效应子群一定是同质分区之一→用 CART 学分区→评估每个分区的处理效应→选最大的。

方法详解

整体框架

(1) 用 CART+Gini 指数(分类)或 MSE(回归)学习数据分区;(2) "诚实推断":在训练集上学树,在测试集上估计每个叶节点的处理效应;(3) 选择效应最大的叶节点作为目标子群。

关键设计

  1. 定理1(同质性):最大效应子群 \(Q^*\) 必须有同质的点处理效应——\(Q' \subset Q\)\(A(Q') \leq A(Q)\)\(A(Q \setminus Q') \geq A(Q)\)

  2. 定理2(简化):在分区模型 \(Y = f_Y(T, \sum_i i \cdot \mathbf{1}_{K_i}(X), N_Y)\) 下,最大效应子群必是某个分区 \(K_i\) → 标准监督学习即可找到分区

  3. 定理3(扩展):结果扩展到有隐混淆变量 \(U\) 的设置

  4. "诚实推断":训练/测试分离——树结构在一半数据上学习,处理效应在另一半上估计,避免过拟合

损失函数 / 训练策略

CART:Gini 指数(分类)或 MSE(回归),代价复杂度剪枝+交叉验证。

实验关键数据

主实验(77个ACIC-2016半合成数据集)

方法 均值处理效应↑ 排名第一比例
Ours (CART) 10.540 51.9%
CausalTree 7.843 14.3%
CURLS 7.410 18.0%
DistillTree 7.451 13.0%
InteractionTree 6.280 3.9%
QUINT 5.135 0.0%
SIDES 4.622 1.3%

统计显著性(Holm 校正 Wilcoxon)

vs 方法 p_holm
QUINT 7.75e-14
SIDES 7.75e-14
InteractionTree 8.68e-12
CausalTree 1.21e-04
CURLS 1.30e-05

关键发现

  • 标准 CART 在 77 个数据集中 51.9% 排名第一——大幅超越所有专门因果方法
  • 所有改进均通过 Wilcoxon+Holm 校正显著(p < 0.001)
  • 因果启发式方法因处理/控制不平衡而脆弱——Gini/MSE 不受此影响
  • 结果超越分区模型假设——在半合成数据上同样有效

亮点与洞察

  • "不需要因果启发式"的理论结论很有冲击力——在合理假设下,最简单的 CART 比所有专门因果方法都好
  • "诚实推断"(训练/评估分离)是关键实现技巧——避免在同一数据上既选子群又估效应

局限性 / 可改进方向

  • 分区模型假设在连续处理效应场景下可能不完全成立
  • CART 的轴对齐分裂限制了子群形状
  • 未验证在高维特征空间(>50特征)下的表现

相关工作与启发

  • vs CausalTree: CausalTree 使用因果特定分裂准则,效应 7.84 vs 本文 10.54
  • vs CURLS: CURLS 用正则化因果损失,仍不如标准 Gini

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "不需要因果启发式"的理论结论颠覆传统认知
  • 实验充分度: ⭐⭐⭐⭐ 77个半合成+合成数据集、7个基线、统计显著性检验
  • 写作质量: ⭐⭐⭐⭐⭐ 定理-实验对应清晰,逻辑严密
  • 价值: ⭐⭐⭐⭐⭐ 对因果推断方法论有根本性启示