Learning Subgroups with Maximum Treatment Effects without Causal Heuristics¶
会议: AAAI 2026
arXiv: 2511.20189
代码: https://github.com/ylincen/causal-subgroup
领域: 因果推理 / 子群发现
关键词: 处理效应, 子群发现, CART, 分区模型, 因果推断
一句话总结¶
在 SCM 框架下证明最大处理效应子群必须具有同质点效应(定理1),在分区模型假设下证明最优子群发现可化简为标准监督学习(定理2),用 CART+Gini 指数即可实现——在 77 个 ACIC-2016 半合成数据集上均值处理效应 10.54(vs 次优 7.84),51.9% 排名第一。
研究背景与动机¶
-
领域现状:发现具有最大平均处理效应的子群是因果推断的核心问题。现有方法(CausalTree、QUINT、SIDES 等)设计专门的"因果启发式"来构建分裂准则。
-
现有痛点:因果启发式脆弱——(1) 处理/控制组不平衡导致树生长时分裂质量差;(2) 专用分裂准则缺乏理论最优保证;(3) 不同方法的假设差异大,结果不一致。
-
核心矛盾:因果子群发现真的需要专门的"因果"方法吗?还是标准监督学习就够了?
-
本文要解决什么? 证明在合理假设下,最大效应子群发现 = 标准分类/回归问题。
-
切入角度:理论驱动——先证明同质性定理(定理1),再在分区模型下证明简化定理(定理2),最后用最简单的 CART 实现。
-
核心 idea 一句话:最大处理效应子群一定是同质分区之一→用 CART 学分区→评估每个分区的处理效应→选最大的。
方法详解¶
整体框架¶
(1) 用 CART+Gini 指数(分类)或 MSE(回归)学习数据分区;(2) "诚实推断":在训练集上学树,在测试集上估计每个叶节点的处理效应;(3) 选择效应最大的叶节点作为目标子群。
关键设计¶
-
定理1(同质性):最大效应子群 \(Q^*\) 必须有同质的点处理效应——\(Q' \subset Q\) 若 \(A(Q') \leq A(Q)\) 则 \(A(Q \setminus Q') \geq A(Q)\)
-
定理2(简化):在分区模型 \(Y = f_Y(T, \sum_i i \cdot \mathbf{1}_{K_i}(X), N_Y)\) 下,最大效应子群必是某个分区 \(K_i\) → 标准监督学习即可找到分区
-
定理3(扩展):结果扩展到有隐混淆变量 \(U\) 的设置
-
"诚实推断":训练/测试分离——树结构在一半数据上学习,处理效应在另一半上估计,避免过拟合
损失函数 / 训练策略¶
CART:Gini 指数(分类)或 MSE(回归),代价复杂度剪枝+交叉验证。
实验关键数据¶
主实验(77个ACIC-2016半合成数据集)¶
| 方法 | 均值处理效应↑ | 排名第一比例 |
|---|---|---|
| Ours (CART) | 10.540 | 51.9% |
| CausalTree | 7.843 | 14.3% |
| CURLS | 7.410 | 18.0% |
| DistillTree | 7.451 | 13.0% |
| InteractionTree | 6.280 | 3.9% |
| QUINT | 5.135 | 0.0% |
| SIDES | 4.622 | 1.3% |
统计显著性(Holm 校正 Wilcoxon)¶
| vs 方法 | p_holm |
|---|---|
| QUINT | 7.75e-14 |
| SIDES | 7.75e-14 |
| InteractionTree | 8.68e-12 |
| CausalTree | 1.21e-04 |
| CURLS | 1.30e-05 |
关键发现¶
- 标准 CART 在 77 个数据集中 51.9% 排名第一——大幅超越所有专门因果方法
- 所有改进均通过 Wilcoxon+Holm 校正显著(p < 0.001)
- 因果启发式方法因处理/控制不平衡而脆弱——Gini/MSE 不受此影响
- 结果超越分区模型假设——在半合成数据上同样有效
亮点与洞察¶
- "不需要因果启发式"的理论结论很有冲击力——在合理假设下,最简单的 CART 比所有专门因果方法都好
- "诚实推断"(训练/评估分离)是关键实现技巧——避免在同一数据上既选子群又估效应
局限性 / 可改进方向¶
- 分区模型假设在连续处理效应场景下可能不完全成立
- CART 的轴对齐分裂限制了子群形状
- 未验证在高维特征空间(>50特征)下的表现
相关工作与启发¶
- vs CausalTree: CausalTree 使用因果特定分裂准则,效应 7.84 vs 本文 10.54
- vs CURLS: CURLS 用正则化因果损失,仍不如标准 Gini
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "不需要因果启发式"的理论结论颠覆传统认知
- 实验充分度: ⭐⭐⭐⭐ 77个半合成+合成数据集、7个基线、统计显著性检验
- 写作质量: ⭐⭐⭐⭐⭐ 定理-实验对应清晰,逻辑严密
- 价值: ⭐⭐⭐⭐⭐ 对因果推断方法论有根本性启示