跳转至

Autoencoding Random Forests

会议: NeurIPS 2025
arXiv: 2505.21441
代码: https://github.com/bips-hb/RFAE
领域: 表征学习 / 树模型
关键词: 随机森林, 自编码器, 扩散映射, 谱分解, 表格数据

一句话总结

RFAE 首次为随机森林构建了原则性的编码-解码框架——利用 RF 核的正定性和普适性进行扩散映射谱分解得到低维编码,通过 k-NN 回归在叶节点空间中解码回原始特征,在 20 个表格数据集上重建质量排名 1.80(大幅优于 TVAE 3.38、AE 3.27),并成功应用于 MNIST 重建和 scRNA-seq 批次效应去除。

研究背景与动机

  1. 领域现状:深度学习主导了表征学习(AE、VAE),但随机森林在表格数据上常常更优。表格数据包含混合连续/类别特征,深度模型处理表格数据的能力不如树模型。
  2. 现有痛点:随机森林缺乏原则性的编码-解码流水线——无法将 RF 学到的表征投影到低维空间再解码回来。现有方法(如直接使用 RF 相似性矩阵的 MDS)没有理论保证且无解码能力。
  3. 核心矛盾:RF 隐含地学到了丰富的数据相似性结构(通过叶节点共现频率),但这种结构被锁在树的内部——无法用于压缩、可视化、去噪等需要编码-解码的任务。
  4. 本文要解决什么? 为随机森林构建理论上有保证的编码器(低维嵌入)和解码器(从嵌入恢复原始特征)。
  5. 切入角度:RF 核 \(k_n^{RF}(\mathbf{x}, \mathbf{x}')\)(两个样本落入同一叶节点的频率)被证明是正定、渐近普适和特征性的(Theorem 3.4),可以直接用扩散映射做谱分解。
  6. 核心 idea 一句话:RF 核的正定性 → 扩散映射谱分解 = 编码器;k-NN 回归在叶节点空间 = 解码器;理论保证普适一致性。

方法详解

整体框架

训练数据 → 随机森林 → 计算 RF 相似性核矩阵 → 编码: 扩散映射谱分解 \(\mathbf{Z} = \sqrt{n}\mathbf{V}\bm{\Lambda}^t\)解码: k-NN 回归(在低维空间中找邻居,用原始特征加权平均)→ 重建数据

关键设计

  1. RF 核的理论保证(Theorem 3.4):
  2. 做什么:证明 RF 核可用于扩散映射
  3. 核心思路:证明 RF 核 \(k_n^{RF}\) 是正定的(可做谱分解)、渐近普适的(逼近任意连续核)、特征性的(不同分布产生不同嵌入)。这保证了扩散映射嵌入的质量
  4. 设计动机:没有这些理论保证,RF 核做扩散映射可能产生退化或不一致的嵌入

  5. 扩散映射编码器:

  6. 做什么:将 RF 相似性矩阵分解为低维嵌入
  7. 核心思路:\(\mathbf{Z} = \sqrt{n}\mathbf{V}\bm{\Lambda}^t\),其中 \(\mathbf{V}\) 是核矩阵的特征向量,\(\bm{\Lambda}\) 是特征值,\(t\) 控制扩散时间尺度。新样本通过 Nyström 扩展投影
  8. 设计动机:扩散映射天然处理非线性流形结构,比 PCA 更适合复杂数据

  9. k-NN 回归解码器(Theorem 4.4):

  10. 做什么:从低维嵌入恢复原始特征
  11. 核心思路:在低维空间找 \(k\) 个最近邻,用距离加权的原始特征平均值作为重建。Theorem 4.4 证明了 k-NN 解码器的普适一致性——当样本量增加时重建误差趋于零
  12. 设计动机:比 ILP(精确但慢)和 split relabeling(快但不够准)更好地平衡准确性和效率

损失函数 / 训练策略

  • 重建评估:连续特征用 \(1 - R^2\),类别特征用分类错误率
  • DICE 指标综合评估:\(\text{DICE} = 1 - \frac{2|A \cap B|}{|A| + |B|}\)

实验关键数据

主实验(20 个表格数据集平均排名)

方法 平均排名 最佳数据集数
RFAE 1.80 12/20
TTVAE 2.45
AE 3.27
TVAE 3.38
VAE 4.10

消融实验

解码方法 速度 精度 特点
ILP(整数规划) 最高 精确叶节点分配
Split relabeling CART 合成数据
k-NN 回归 最佳平衡

关键发现

  • RFAE 在 12/20 表格数据集上排名第一——大幅超越深度自编码器方法
  • MNIST 上 \(d_\mathcal{Z}=32\) 时可识别的数字重建——说明 RF 核包含足够的视觉信息
  • scRNA-seq 批次效应去除成功——跨 Zeisel(2874 样本)和 Tasic(1590 样本)数据集的批次和谐化
  • 完全随机森林和监督 RF 都适用

亮点与洞察

  • 理论基础扎实:RF 核的正定性/普适性/特征性三重保证是核心贡献——使 RF 核成为合法的核方法
  • 表格数据上树模型 >> 深度模型的又一例证:RFAE 在表格数据上大幅超越 AE/VAE/TVAE
  • 跨域应用:从表格重建到基因组去噪,展示了 RFAE 的通用性

局限性 / 可改进方向

  • 解码计算量非平凡——k-NN 需要存储和查询原始 RF
  • k-NN 的 \(k\) 值选择敏感
  • 不适合图像等高维数据的端到端优化
  • 无法蒸馏为更小的模型——需要原始 RF

相关工作与启发

  • vs TVAE/CTGAN: 深度生成模型在表格数据上通常弱于树模型,RFAE 将这一优势扩展到了自编码任务
  • vs 核 PCA: RFAE 使用 RF 特定的核函数,理论保证更强且自动处理混合特征
  • 启发: RF 核可作为通用的非参数相似性度量,不仅用于分类还用于表征学习

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次为随机森林构建完整的自编码框架,理论贡献深厚
  • 实验充分度: ⭐⭐⭐⭐ 20 个数据集 + MNIST + scRNA-seq 三类应用
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,定理陈述清晰
  • 价值: ⭐⭐⭐⭐ 为树模型与表征学习的结合开辟了新方向

方法补充说明

  • 编码过程的复杂度分析:谱分解需要 \(O(n^2 d)\) 时间构建核矩阵和 \(O(n^3)\) 做特征分解,对大数据集可通过 Nyström 近似降低到 \(O(nm^2)\)\(m\) 个锚点)
  • k-NN 解码的一致性保证(Theorem 4.4):当训练样本 \(n o \infty\)\(k/n o 0, k o \infty\) 时,解码重建误差收敛到贝叶斯最优——这是对随机森林解码能力的首个普适一致性结果
  • 与深度自编码器的本质区别:RFAE 的编码器是非参数的(由 RF 核决定),解码器也是非参数的(k-NN),不存在过拟合风险但灵活性受核函数限制
  • scRNA-seq 应用的意义:批次效应是单细胞组学的核心挑战,RFAE 的非线性嵌入能在保留细胞类型结构的同时消除技术批次差异

  • 多任务潜力:RFAE 的低维嵌入可同时用于聚类、可视化和去噪——一次训练多种用途