Statistical Inference for Gradient Boosting Regression¶

会议: NeurIPS 2025
arXiv: 2509.23127
代码: 无
领域: 统计推断 / 集成学习
关键词: 梯度提升, 中心极限定理, 置信区间, 假设检验, 随机森林

一句话总结¶

提出统一的梯度提升回归统计推断框架，通过将dropout和并行训练整合到Boulevard正则化中，证明了相应的中心极限定理，从而构建了内置的置信区间、预测区间和变量重要性假设检验，并发现增大dropout率和并行树数量能显著提升信号恢复（最高达2倍和4倍）。

研究背景与动机¶

梯度提升（XGBoost、LightGBM、CatBoost）在表格数据上极其强大，但其不确定性量化远不如其预测性能成熟。核心问题是：如果收集新数据并重新训练，预测结果会有多大不同？

现有不确定性量化方法大多缺乏理论保证： - Langevin boosting、kNN方法、高斯图模型等主要依赖启发式论证 - 贝叶斯方法（Ustimenko et al.）需重跑完整boosting生成后验样本 - 频率派方面，Zhou & Hooker (2022) 的Boulevard方法是唯一提供频率派推断的框架，但存在两大限制： 1. 信号恢复不足：最多只能恢复真实信号的一半（$\frac{\lambda}{1+\lambda} f \leq f/2$） 2. 未提供实用的区间：证明了渐近正态性但未构建实际的置信/预测区间

关键洞察：增大dropout概率反而能恢复更多信号——因为当前集成中的树被随机丢弃时，残差中保留了更多原始信号，新树就能学到更多。

方法详解¶

整体框架¶

核心路径：Boulevard正则化 → 收敛到核岭回归(KRR) → 中心极限定理 → 构建统计推断工具

Boulevard正则化的关键修改：每轮更新时不是简单累加树预测，而是取平均： $$\hat{f}^{(b+1)} \leftarrow \frac{b-1}{b}\hat{f}^{(b)} + \frac{\lambda}{b} t^{(b)} = \frac{\lambda}{b}\sum_{i=1}^b t^{(i)}$$

关键设计¶

1. BRAT-D: 带Dropout的Boulevard正则化 (Algorithm 1)¶

在每轮boosting中： 1. 以概率 $q=1-p$ 对已有树进行子采样 $\mathcal{S}_b \subseteq \{0,...,b-1\}$ 2. 对数据进行子采样 $\mathcal{G}_b \subseteq \{1,...,n\}$ 3. 计算残差：$z_i = y_i - \frac{\lambda}{b}\sum_{s \in \mathcal{S}_b} t^{(s)}(\mathbf{x}_i)$ - 注意除以 $b$ 而非 $|\mathcal{S}|$，使新树在更大的信号上拟合 4. 最终预测需缩放：$\frac{1+\lambda q}{\lambda}\hat{f}^{(B)}$

信号恢复：收敛到 $\frac{\lambda}{1+\lambda q}f$，比原始Boulevard的 $\frac{\lambda}{1+\lambda}f$ 提升因子为 $\frac{1+\lambda}{1+\lambda q} \in (1, 2]$

特殊情况：$\lambda=1, p\to 1$ 退化为随机森林；$p=0$ 退化为原始Boulevard。可通过调节 $p$ 在两者之间平滑插值。

2. BRAT-P: 并行Boulevard (Algorithm 2)¶

每轮同时训练 $K$ 棵树，使用 leave-one-out 策略： 1. 第一轮：用 $K$ 步标准boosting热身 2. 后续每轮：并行训练 $K$ 棵树，每棵树的残差通过留出自己的"列"计算： $$z_{i,k} = y_i - \frac{1}{b-1}\sum_{s=1}^{b-1}\sum_{l \neq k} t^{(s,l)}(\mathbf{x}_i)$$ 3. 预测：$\hat{f}^{(b+1)} = \frac{1}{b}\sum_{s=1}^b \sum_{k=1}^K t^{(s,k)}$（无需除以 $K$）

信号恢复：收敛到完整信号 $f$（无需rescaling），相对效率改进 $\geq 4\times$

特殊情况：$K=1, B\to\infty$ 退化为随机森林；$B=1, K\to\infty$ 退化为标准boosting。

3. Nyström近似实现线性计算复杂度¶

核矩阵 $\hat{\mathbf{K}}_n$ 的计算是 $O(n^3)$，通过Nyström方法近似为 $O(ns^2)$ 预计算 + $O(s^2)$ 推断，其中 $s = \tilde{O}(d_{eff}^\mu)$ 为近似线性于有效维度。

损失函数 / 训练策略¶

提供四类统计推断工具：

置信区间（对真实函数 $f$）： $$\hat{f}_n^P(\mathbf{x}) \pm z_{1-\alpha/2} \hat{\sigma} \|\hat{r}_n^P(\mathbf{x})\|_2$$

预测区间（对新观测 $y$）： $$\hat{f}_n^P(\mathbf{x}) \pm z_{1-\alpha/2} \hat{\sigma} \sqrt{1 + \|\hat{r}_n^P(\mathbf{x})\|_2^2}$$

变量重要性卡方检验：训练完整模型 $\hat{f}_{n,1}$ 和去掉某变量的模型 $\hat{f}_{n,2}$，利用CLT构造检验统计量： $$\hat{\sigma}^{-2}\hat{d}_m^\top \hat{\Xi}_n^{-1} \hat{d}_m \sim \chi_m^2$$

实验关键数据¶

主实验¶

9个UCI数据集上的MSE对比（所有方法通过Optuna调参）：

方法	特点	相对性能
XGBoost	一致性强的表现	基准
BRAT-D	可调向boosting或RF	与XGBoost竞争力相当
BRAT-P	偶有不稳定	在部分数据集最优
Random Forest	适合特定数据	部分数据集优于boosting
Boulevard(原始)	信号恢复受限	整体次于BRAT-D/P

关键优势：BRAT-D/P 可通过调参在Wine Quality数据上表现接近boosting，在Air Quality上表现接近随机森林，提供两者间的灵活插值。

消融实验¶

变量重要性检验的Type I/II error（$f(\mathbf{x})=4x_1-x_2^2+wbx_3$，检验 $H_0: w=0$）：

训练集大小	Type I Error	Type II Error (w=1)	说明
200	~0.05 (控制良好)	~0.35	检出力随样本量增长
500	~0.05	~0.08	快速降低
1000	~0.05	~0.02	接近完美检出

区间覆盖率评估（Friedman函数）： - 预测区间：自适应调整后接近名义覆盖率 $1-\alpha$ - 关键优势：与conformal区间不同，BRAT的区间宽度随测试点变化，可识别"困难"样本

关键发现¶

dropout越大→信号恢复越好：这是反直觉的——丢弃更多树反而让模型性能更好
并行训练无需rescaling：BRAT-P直接收敛到完整信号 $f$，消除了Boulevard的核心缺陷
ARE改进显著：BRAT-D相比Boulevard改进最多4倍，BRAT-P改进至少4倍
预测区间优于conformal：条件覆盖保证（conditional on $\mathbf{x}$）强于conformal的边际保证

亮点与洞察¶

弥合boosting和随机森林：两种算法可通过调参在两大经典方法间连续插值，统一了集成学习的理论视角
严格的理论保证：首次为带dropout的boosting和并行boosting建立中心极限定理
实用的统计工具：置信区间、预测区间、变量重要性检验——覆盖了实际应用的核心需求
Nyström近似使推断可扩展：线性时间复杂度让方法对大数据集实用

局限与展望¶

理论保证依赖结构-值隔离、非适应性等假设，放松这些假设将扩大适用范围
收敛速率为 $n^{-1/(d+1)}$（1/2-Hölder光滑），对Lipschitz函数应可改进到 $n^{-2/(d+1)}$
目前限于回归任务，扩展到分类、生存分析等需新的CLT
Algorithm 2 的不稳定性（某些数据集上出现）需要进一步分析

评分¶

新颖性: ⭐⭐⭐⭐ （理论贡献扎实，dropout提升信号恢复的发现有趣）
实验充分度: ⭐⭐⭐⭐ （覆盖MSE对比、检验、区间评估，但真实数据集评估可更多）
写作质量: ⭐⭐⭐⭐ （数学推导严谨，但理论密度高，对非统计学读者有门槛）
价值: ⭐⭐⭐⭐⭐ （填补了梯度提升统计推断的重要空白，对XGBoost等工具的实际应用有直接价值）