Regression Trees Know Calculus¶
会议: NeurIPS 2025
arXiv: 2405.13846
代码: 暂无
领域: 机器学习理论 · 回归树可解释性
关键词: 回归树, 梯度估计, 活跃子空间, 集成梯度, 可解释性
一句话总结¶
揭示常叶回归树中隐含的梯度信息——通过相邻节点均值差的有限差分类比,高效提取梯度估计,进而将活跃子空间(Active Subspace)和集成梯度(Integrated Gradient)等微分工具引入树模型,拓展了树模型的可解释性和预测改进能力。
研究背景与动机¶
回归树(包括随机森林和梯度提升)是数据科学中最广泛使用的工具之一,以分段常数函数逼近目标函数。由于其主要设计目标是处理非线性、交互效应和尖锐不连续性,对于树模型在逼近光滑可微函数时的性质,研究者关注较少。
现有树模型的可解释性工具主要有: - MDI(不纯度均值降低):对变量比例分配分裂时的代价降低,但已知存在偏差问题 - 特征置换:打乱某特征后衡量性能下降,但在特征相关时表现不佳 - SHAP:通用的解释框架,但计算量大
另一方面,神经网络和高斯过程等可微模型拥有丰富的基于梯度的分析工具: - 集成梯度(IG):沿参考点到目标点的路径积分梯度,提供局部归因 - 活跃子空间(AS):通过梯度外积的期望矩阵的特征分解,发现重要线性方向
这些方法无法直接用于树模型,因为分段常数函数的梯度几乎处处为零。本文的核心洞察是:虽然树的形式梯度为零,但分裂节点两侧的均值差隐含着梯度信息,可以构造出类比有限差分的梯度估计器。
方法详解¶
整体框架¶
将深度为\(K\)的回归树的每个内部节点视为一个有限差分采样点,从中提取关于分裂变量的偏导数估计。通过自根向叶的遍历,逐层更新梯度向量,最终为每个叶节点关联一个完整的梯度估计。在此基础上进一步构建活跃子空间矩阵和集成梯度等积分-微分量的估计器。
关键设计¶
- 树基梯度估计器(TBGE):
对节点\(i\),其沿变量\(\sigma_i\)将数据分为左右子节点。左右子节点的响应变量均值分别为\(\hat{\mu}_l^i\)和\(\hat{\mu}_r^i\),节点\(i\)在维度\(\sigma_i\)上的范围为\([l_{\sigma_i}^i, u_{\sigma_i}^i]\)。定义:
$\(\gamma_i := \frac{2(\hat{\mu}_r^i - \hat{\mu}_l^i)}{u_{\sigma_i}^i - l_{\sigma_i}^i} \approx \frac{\partial f}{\partial x_{\sigma_i}}(\mathbf{x}), \quad \forall \mathbf{x} \in [\mathbf{l}^i, \mathbf{u}^i]\)$
这本质上是用子节点均值差除以节点宽度——与经典有限差分完全类比。每个节点只能估计一个偏导数(沿分裂变量的方向),但通过从根到叶的遍历,可以组合不同深度节点的估计形成完整梯度向量\(\mathbf{G}^i\)。
设计动机:当节点足够小且函数梯度变化平滑时,这个有限差分逼近是合理的。计算只需遍历树一次,复杂度与标准预测相同。
- 树基活跃子空间(TBAS):
利用分区估计器(PBE),对倒数第二层所有节点的梯度估计加权求和,构造活跃子空间矩阵:
$\(\hat{C}_\mu^f = \sum_{i \in \mathcal{N}_{K-1}} \mathbf{G}^i (\mathbf{G}^i)^\top \mu([\mathbf{l}^i, \mathbf{u}^i])\)$
其中\(\mu([\mathbf{l}^i, \mathbf{u}^i])\)是节点\(i\)在度量\(\mu\)下的测度(均匀分布时即体积比)。对该矩阵做特征分解即可获得重要的线性方向组合。
设计动机:无需额外采样或辅助模型,直接复用树结构中已有信息。且树天然倾向于在重要变量上分裂,TBAS具有内建的稀疏性归纳偏置。
- 树基集成梯度(TBIG):
在参考点\(\mathbf{x}^*\)和目标点\(\mathbf{x}\)之间的路径上做蒙特卡洛采样,用TBGE替代真实梯度:
$\(\hat{IG}(\mathbf{x}) = (\mathbf{x} - \mathbf{x}^*) \odot \frac{1}{M} \sum_{m=1}^{M} \tilde{\nabla}f(u_m \mathbf{x} + (1-u_m)\mathbf{x}^*)\)$
设计动机:将神经网络的局部归因方法移植到树模型,为随机森林分类器提供可视化的特征重要性解释。
理论保证¶
定理4.1(梯度估计一致性):当分裂数\(S(N)\)增长慢于\(\log N\)时,TBGE收敛到真实梯度,误差率为\(O_P(P(\log N)^{-1})\)。虽然收敛速率较慢,但利用了树的计算效率优势。
定理4.2(积分量一致性):在有界条件下,PBE估计的积分-微分量随样本量趋于无穷而收敛到真实值。
实验关键数据¶
主实验:TBAS旋转对预测的影响¶
| 数据集 | 方法 | 深度4单树 | 深度8单树 | 深度4随机森林 |
|---|---|---|---|---|
| kin40k | TBAS | 0.856 | 0.586 | 0.802 |
| kin40k | 无旋转(Id) | 0.963 | 0.862 | 0.954 |
| kin40k | PCA | 0.964 | 0.872 | 0.954 |
| keggu | TBAS | 0.194 | 0.078 | 0.161 |
| keggu | 无旋转(Id) | 0.350 | 0.121 | 0.344 |
| concrete | TBAS | 0.470 | 0.350 | 0.406 |
| concrete | 无旋转(Id) | 0.537 | 0.403 | 0.462 |
(数值为100-fold RMSE,越低越好。TBAS在多个数据集上显著优于无旋转和PCA旋转。)
消融实验:活跃子空间估计效率对比¶
| 维度 | 方法 | 执行时间趋势 | 估计误差趋势 | 说明 |
|---|---|---|---|---|
| 2-4D | TBAS | 远快 | 可比 | 构成Pareto前沿的大部分 |
| 2-4D | GP | 小样本快,大样本不可行 | 小样本好 | >150样本计算爆炸 |
| 2-4D | PRA | 类似GP | 类似GP | 多项式岭近似 |
| 2-4D | DASM | 中等 | 中等 | 神经网络方法 |
| 10-100D | TBAS | 远优 | 远优 | 稀疏归纳偏置显著 |
| 10-100D | DASM | 唯一可比方法 | 需更大样本 | GP/PRA不可行 |
关键发现¶
- TBAS在8个基准数据集中至少与其他旋转方法持平,在kin40k和keggu上RMSE降低达10-50%
- 在低维(2-4D)场景中,TBAS以数量级更快的速度达到与UQ专用方法可比的精度
- 在高维(10-100D)稀疏场景中,TBAS天然偏好逐坐标的活跃子空间,远优于DASM
- TBIG在MNIST分类任务上成功识别出数字的判别性像素区域
亮点与洞察¶
- 概念优雅:基于一个极简观察——分裂节点两侧均值差即有限差分——打通了树模型与微积分工具的连接
- 计算高效:梯度估计仅需一次树遍历,无需额外数据、无需辅助模型
- 双向价值:不仅将微分工具引入树模型(提升可解释性),也将树模型引入UQ领域(提供高效估计器)
- 稀疏归纳偏置:树的分裂机制天然偏好重要变量,TBAS无需额外正则化即具有稀疏性
局限与展望¶
- 理论分析基于简化假设(按变量循环分裂、中位数分裂),与CART等实际算法有差距
- 梯度估计收敛速率为\(O((\log N)^{-1})\),较慢,适合"粗略估计足够"的场景
- 高维时需要非常深的树才能获得高精度梯度估计
- 分类任务和类别型特征的扩展尚在初步阶段
- 每一层覆写上一层的梯度估计,可能通过多层聚合获得更好的收敛率
相关工作与启发¶
- 树可解释性: SHAP, MDI, 特征置换
- 梯度归因: Integrated Gradients, Active Subspace Method
- 活跃子空间估计: GP方法, PRA, DASM
- 启发:其他非可微模型(如KNN、kernel方法)是否也能从类似的"隐含梯度"视角中获益?树模型在物理信息机器学习(PIML)中的应用也值得探索
评分¶
- 新颖性:⭐⭐⭐⭐⭐ — 极具洞察力的发现,首次揭示常叶回归树中隐含梯度的估计方法
- 实验充分度:⭐⭐⭐⭐ — 覆盖预测改进、低/高维活跃子空间、可视化等多维度验证
- 写作质量:⭐⭐⭐⭐⭐ — 记号清晰,从直觉到理论到实验层层推进
- 价值:⭐⭐⭐⭐ — 连接树模型与微分工具的桥梁性工作,开启多个有趣的后续方向
相关论文¶
- [NeurIPS 2025] Statistical Inference for Gradient Boosting Regression
- [NeurIPS 2025] Improving Decision Trees through the Lens of Parameterized Local Search
- [ICML 2025] Prediction via Shapley Value Regression (ViaSHAP)
- [NeurIPS 2025] Information-Computation Tradeoffs for Noiseless Linear Regression with Oblivious Contamination
- [NeurIPS 2025] An Empirical Investigation of Neural ODEs and Symbolic Regression for Dynamical Systems