Autoencoding Random Forests¶

会议: NeurIPS 2025
arXiv: 2505.21441
代码: https://github.com/bips-hb/RFAE
领域: 表征学习 / 树模型
关键词: 随机森林, 自编码器, 扩散映射, 谱分解, 表格数据

一句话总结¶

RFAE 首次为随机森林构建了原则性的编码-解码框架——利用 RF 核的正定性和普适性进行扩散映射谱分解得到低维编码，通过 k-NN 回归在叶节点空间中解码回原始特征，在 20 个表格数据集上重建质量排名 1.80（大幅优于 TVAE 3.38、AE 3.27），并成功应用于 MNIST 重建和 scRNA-seq 批次效应去除。

研究背景与动机¶

领域现状：深度学习主导了表征学习（AE、VAE），但随机森林在表格数据上常常更优。表格数据包含混合连续/类别特征，深度模型处理表格数据的能力不如树模型。
现有痛点：随机森林缺乏原则性的编码-解码流水线——无法将 RF 学到的表征投影到低维空间再解码回来。现有方法（如直接使用 RF 相似性矩阵的 MDS）没有理论保证且无解码能力。
核心矛盾：RF 隐含地学到了丰富的数据相似性结构（通过叶节点共现频率），但这种结构被锁在树的内部——无法用于压缩、可视化、去噪等需要编码-解码的任务。
本文要解决什么？ 为随机森林构建理论上有保证的编码器（低维嵌入）和解码器（从嵌入恢复原始特征）。
切入角度：RF 核 \(k_n^{RF}(\mathbf{x}, \mathbf{x}')\)（两个样本落入同一叶节点的频率）被证明是正定、渐近普适和特征性的（Theorem 3.4），可以直接用扩散映射做谱分解。
核心 idea 一句话：RF 核的正定性 → 扩散映射谱分解 = 编码器；k-NN 回归在叶节点空间 = 解码器；理论保证普适一致性。

方法详解¶

整体框架¶

训练数据 → 随机森林 → 计算 RF 相似性核矩阵 → 编码: 扩散映射谱分解 \(\mathbf{Z} = \sqrt{n}\mathbf{V}\bm{\Lambda}^t\) → 解码: k-NN 回归（在低维空间中找邻居，用原始特征加权平均）→ 重建数据

关键设计¶

RF 核的理论保证（Theorem 3.4）:
做什么：证明 RF 核可用于扩散映射
核心思路：证明 RF 核 \(k_n^{RF}\) 是正定的（可做谱分解）、渐近普适的（逼近任意连续核）、特征性的（不同分布产生不同嵌入）。这保证了扩散映射嵌入的质量
设计动机：没有这些理论保证，RF 核做扩散映射可能产生退化或不一致的嵌入
扩散映射编码器:
做什么：将 RF 相似性矩阵分解为低维嵌入
核心思路：\(\mathbf{Z} = \sqrt{n}\mathbf{V}\bm{\Lambda}^t\)，其中 \(\mathbf{V}\) 是核矩阵的特征向量，\(\bm{\Lambda}\) 是特征值，\(t\) 控制扩散时间尺度。新样本通过 Nyström 扩展投影
设计动机：扩散映射天然处理非线性流形结构，比 PCA 更适合复杂数据
k-NN 回归解码器（Theorem 4.4）:
做什么：从低维嵌入恢复原始特征
核心思路：在低维空间找 \(k\) 个最近邻，用距离加权的原始特征平均值作为重建。Theorem 4.4 证明了 k-NN 解码器的普适一致性——当样本量增加时重建误差趋于零
设计动机：比 ILP（精确但慢）和 split relabeling（快但不够准）更好地平衡准确性和效率

损失函数 / 训练策略¶

重建评估：连续特征用 \(1 - R^2\)，类别特征用分类错误率
DICE 指标综合评估：\(\text{DICE} = 1 - \frac{2|A \cap B|}{|A| + |B|}\)

实验关键数据¶

主实验（20 个表格数据集平均排名）¶

方法	平均排名	最佳数据集数
RFAE	1.80	12/20
TTVAE	2.45	—
AE	3.27	—
TVAE	3.38	—
VAE	4.10	—

消融实验¶

解码方法	速度	精度	特点
ILP（整数规划）	慢	最高	精确叶节点分配
Split relabeling	快	中	CART 合成数据
k-NN 回归	快	高	最佳平衡

关键发现¶

RFAE 在 12/20 表格数据集上排名第一——大幅超越深度自编码器方法
MNIST 上 \(d_\mathcal{Z}=32\) 时可识别的数字重建——说明 RF 核包含足够的视觉信息
scRNA-seq 批次效应去除成功——跨 Zeisel（2874 样本）和 Tasic（1590 样本）数据集的批次和谐化
完全随机森林和监督 RF 都适用

亮点与洞察¶

理论基础扎实：RF 核的正定性/普适性/特征性三重保证是核心贡献——使 RF 核成为合法的核方法
表格数据上树模型 >> 深度模型的又一例证：RFAE 在表格数据上大幅超越 AE/VAE/TVAE
跨域应用：从表格重建到基因组去噪，展示了 RFAE 的通用性

局限性 / 可改进方向¶

解码计算量非平凡——k-NN 需要存储和查询原始 RF
k-NN 的 \(k\) 值选择敏感
不适合图像等高维数据的端到端优化
无法蒸馏为更小的模型——需要原始 RF

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次为随机森林构建完整的自编码框架，理论贡献深厚
实验充分度: ⭐⭐⭐⭐ 20 个数据集 + MNIST + scRNA-seq 三类应用
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，定理陈述清晰
价值: ⭐⭐⭐⭐ 为树模型与表征学习的结合开辟了新方向

方法补充说明¶

编码过程的复杂度分析：谱分解需要 \(O(n^2 d)\) 时间构建核矩阵和 \(O(n^3)\) 做特征分解，对大数据集可通过 Nyström 近似降低到 \(O(nm^2)\)（\(m\) 个锚点）
k-NN 解码的一致性保证（Theorem 4.4）：当训练样本 \(n o \infty\) 且 \(k/n o 0, k o \infty\) 时，解码重建误差收敛到贝叶斯最优——这是对随机森林解码能力的首个普适一致性结果
与深度自编码器的本质区别：RFAE 的编码器是非参数的（由 RF 核决定），解码器也是非参数的（k-NN），不存在过拟合风险但灵活性受核函数限制
scRNA-seq 应用的意义：批次效应是单细胞组学的核心挑战，RFAE 的非线性嵌入能在保留细胞类型结构的同时消除技术批次差异
多任务潜力：RFAE 的低维嵌入可同时用于聚类、可视化和去噪——一次训练多种用途