Autoencoding Random Forests¶
会议: NeurIPS 2025
arXiv: 2505.21441
代码: https://github.com/bips-hb/RFAE
领域: 表征学习 / 树模型
关键词: 随机森林, 自编码器, 扩散映射, 谱分解, 表格数据
一句话总结¶
RFAE 首次为随机森林构建了原则性的编码-解码框架——利用 RF 核的正定性和普适性进行扩散映射谱分解得到低维编码,通过 k-NN 回归在叶节点空间中解码回原始特征,在 20 个表格数据集上重建质量排名 1.80(大幅优于 TVAE 3.38、AE 3.27),并成功应用于 MNIST 重建和 scRNA-seq 批次效应去除。
研究背景与动机¶
- 领域现状:深度学习主导了表征学习(AE、VAE),但随机森林在表格数据上常常更优。表格数据包含混合连续/类别特征,深度模型处理表格数据的能力不如树模型。
- 现有痛点:随机森林缺乏原则性的编码-解码流水线——无法将 RF 学到的表征投影到低维空间再解码回来。现有方法(如直接使用 RF 相似性矩阵的 MDS)没有理论保证且无解码能力。
- 核心矛盾:RF 隐含地学到了丰富的数据相似性结构(通过叶节点共现频率),但这种结构被锁在树的内部——无法用于压缩、可视化、去噪等需要编码-解码的任务。
- 本文要解决什么? 为随机森林构建理论上有保证的编码器(低维嵌入)和解码器(从嵌入恢复原始特征)。
- 切入角度:RF 核 \(k_n^{RF}(\mathbf{x}, \mathbf{x}')\)(两个样本落入同一叶节点的频率)被证明是正定、渐近普适和特征性的(Theorem 3.4),可以直接用扩散映射做谱分解。
- 核心 idea 一句话:RF 核的正定性 → 扩散映射谱分解 = 编码器;k-NN 回归在叶节点空间 = 解码器;理论保证普适一致性。
方法详解¶
整体框架¶
训练数据 → 随机森林 → 计算 RF 相似性核矩阵 → 编码: 扩散映射谱分解 \(\mathbf{Z} = \sqrt{n}\mathbf{V}\bm{\Lambda}^t\) → 解码: k-NN 回归(在低维空间中找邻居,用原始特征加权平均)→ 重建数据
关键设计¶
- RF 核的理论保证(Theorem 3.4):
- 做什么:证明 RF 核可用于扩散映射
- 核心思路:证明 RF 核 \(k_n^{RF}\) 是正定的(可做谱分解)、渐近普适的(逼近任意连续核)、特征性的(不同分布产生不同嵌入)。这保证了扩散映射嵌入的质量
-
设计动机:没有这些理论保证,RF 核做扩散映射可能产生退化或不一致的嵌入
-
扩散映射编码器:
- 做什么:将 RF 相似性矩阵分解为低维嵌入
- 核心思路:\(\mathbf{Z} = \sqrt{n}\mathbf{V}\bm{\Lambda}^t\),其中 \(\mathbf{V}\) 是核矩阵的特征向量,\(\bm{\Lambda}\) 是特征值,\(t\) 控制扩散时间尺度。新样本通过 Nyström 扩展投影
-
设计动机:扩散映射天然处理非线性流形结构,比 PCA 更适合复杂数据
-
k-NN 回归解码器(Theorem 4.4):
- 做什么:从低维嵌入恢复原始特征
- 核心思路:在低维空间找 \(k\) 个最近邻,用距离加权的原始特征平均值作为重建。Theorem 4.4 证明了 k-NN 解码器的普适一致性——当样本量增加时重建误差趋于零
- 设计动机:比 ILP(精确但慢)和 split relabeling(快但不够准)更好地平衡准确性和效率
损失函数 / 训练策略¶
- 重建评估:连续特征用 \(1 - R^2\),类别特征用分类错误率
- DICE 指标综合评估:\(\text{DICE} = 1 - \frac{2|A \cap B|}{|A| + |B|}\)
实验关键数据¶
主实验(20 个表格数据集平均排名)¶
| 方法 | 平均排名 | 最佳数据集数 |
|---|---|---|
| RFAE | 1.80 | 12/20 |
| TTVAE | 2.45 | — |
| AE | 3.27 | — |
| TVAE | 3.38 | — |
| VAE | 4.10 | — |
消融实验¶
| 解码方法 | 速度 | 精度 | 特点 |
|---|---|---|---|
| ILP(整数规划) | 慢 | 最高 | 精确叶节点分配 |
| Split relabeling | 快 | 中 | CART 合成数据 |
| k-NN 回归 | 快 | 高 | 最佳平衡 |
关键发现¶
- RFAE 在 12/20 表格数据集上排名第一——大幅超越深度自编码器方法
- MNIST 上 \(d_\mathcal{Z}=32\) 时可识别的数字重建——说明 RF 核包含足够的视觉信息
- scRNA-seq 批次效应去除成功——跨 Zeisel(2874 样本)和 Tasic(1590 样本)数据集的批次和谐化
- 完全随机森林和监督 RF 都适用
亮点与洞察¶
- 理论基础扎实:RF 核的正定性/普适性/特征性三重保证是核心贡献——使 RF 核成为合法的核方法
- 表格数据上树模型 >> 深度模型的又一例证:RFAE 在表格数据上大幅超越 AE/VAE/TVAE
- 跨域应用:从表格重建到基因组去噪,展示了 RFAE 的通用性
局限性 / 可改进方向¶
- 解码计算量非平凡——k-NN 需要存储和查询原始 RF
- k-NN 的 \(k\) 值选择敏感
- 不适合图像等高维数据的端到端优化
- 无法蒸馏为更小的模型——需要原始 RF
相关工作与启发¶
- vs TVAE/CTGAN: 深度生成模型在表格数据上通常弱于树模型,RFAE 将这一优势扩展到了自编码任务
- vs 核 PCA: RFAE 使用 RF 特定的核函数,理论保证更强且自动处理混合特征
- 启发: RF 核可作为通用的非参数相似性度量,不仅用于分类还用于表征学习
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次为随机森林构建完整的自编码框架,理论贡献深厚
- 实验充分度: ⭐⭐⭐⭐ 20 个数据集 + MNIST + scRNA-seq 三类应用
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,定理陈述清晰
- 价值: ⭐⭐⭐⭐ 为树模型与表征学习的结合开辟了新方向
方法补充说明¶
- 编码过程的复杂度分析:谱分解需要 \(O(n^2 d)\) 时间构建核矩阵和 \(O(n^3)\) 做特征分解,对大数据集可通过 Nyström 近似降低到 \(O(nm^2)\)(\(m\) 个锚点)
- k-NN 解码的一致性保证(Theorem 4.4):当训练样本 \(n o \infty\) 且 \(k/n o 0, k o \infty\) 时,解码重建误差收敛到贝叶斯最优——这是对随机森林解码能力的首个普适一致性结果
- 与深度自编码器的本质区别:RFAE 的编码器是非参数的(由 RF 核决定),解码器也是非参数的(k-NN),不存在过拟合风险但灵活性受核函数限制
-
scRNA-seq 应用的意义:批次效应是单细胞组学的核心挑战,RFAE 的非线性嵌入能在保留细胞类型结构的同时消除技术批次差异
-
多任务潜力:RFAE 的低维嵌入可同时用于聚类、可视化和去噪——一次训练多种用途