Relatron: Automating Relational Machine Learning over Relational Databases¶

会议: ICLR 2026
arXiv: 2602.22552
代码: https://github.com/amazon-science/Automating-Relational-Machine-Learning
领域: 图学习 / AutoML
关键词: 关系数据库, 图神经网络, 深度特征合成, 架构选择, 同质性

一句话总结¶

系统比较关系深度学习（RDL/GNN）和深度特征合成（DFS）在关系数据库预测任务上的性能，发现两者各有优势且高度任务依赖，提出 Relatron——基于任务嵌入的元选择器，通过 RDB 任务同质性和亲和力嵌入实现自动架构选择，在联合架构-超参搜索中提升达 18.5%。

研究背景与动机¶

领域现状：关系数据库（RDB）上的预测建模有两大路线：DFS（程序化组合聚合原语生成特征表，再用表格学习器）和 RDL（在异构实体-关系图上端到端训练 GNN）。两者都优于关系无关的基线。

现有痛点：两种范式何时更优完全未知。从业者缺乏选择 DFS vs RDL 的原则性指导。验证性能常常是不可靠的选择代理——更多搜索反而导致更差的测试性能（"越调越差"效应）。

核心矛盾：(a) 没有单一架构在所有任务上占优；(b) 验证集选择的配置与测试最优配置之间存在显著差距，尤其在时序分割导致分布偏移时。

本文目标：给定 RDB 任务，自动选择 RDL 还是 DFS，以及具体架构配置。

切入角度：通过大规模架构搜索构建"性能银行"，分析驱动 RDL-DFS 性能差距的因素，发现 RDB 任务同质性和训练规模是关键预测因子。

核心 idea：同质性高 → DFS 线性聚合就够；同质性低 → RDL 的非线性聚合有优势。通过任务嵌入（同质性+亲和力+规模）训练元分类器，实现自动宏观和微观架构选择。

方法详解¶

整体框架¶

构建 RDL 和 DFS 的分解设计空间 → 大规模架构搜索生成性能银行 → 分析性能差距驱动因素 → 设计任务嵌入 → 训练元选择器 Relatron → 用 loss landscape 指标做后选择。

关键设计¶

RDB 任务同质性（Definition 1）:
- 功能：度量 RDB 任务中标签沿元路径的一致性
- 核心思路：在增强异构图上定义自循环元路径 \(m\)，计算 \(H(\mathcal{G};m) = \frac{1}{|\mathcal{E}_m|}\sum \mathcal{K}(\hat{y}_u, \hat{y}_v)\)。分类任务用点积度量，回归任务用 Pearson 相关度量。还支持调整同质性（adjusted homophily）校正类别不平衡
- 设计动机：Spearman \(\rho = -0.43\) (\(p < 0.05\)) 表明同质性与 RDL-DFS 性能差距强相关。低同质性 → RDL 优势大
锚点亲和力嵌入:
- 功能：捕获结构、特征和时序属性
- 核心思路：路径亲和力（随机初始化 GraphSAGE/NBFNet 单次前向+线性拟合），特征亲和力（TabPFN 零训练验证性能），时序亲和力（标签随时间的统计量），\(\log(N_{train})\) 训练规模
- 设计动机：同质性仅捕获消息传递偏好，还需路径模型偏好、特征质量、时序动态等信号
Loss Landscape 后选择:
- 功能：在验证性能 top 候选中选择更鲁棒的检查点
- 核心思路：三个指标——一阶 \(P_1\)（最差有限差分斜率）、二阶 \(P_2\)（Hessian 最大特征值）、能量势垒 \(P_{bar}\)（沿射线的最大损失隆起）。倾向平坦极小值
- 设计动机：验证-测试差距反映在 loss landscape 几何中,更平坦的极小值对分布偏移更鲁棒

损失函数 / 训练策略¶

元分类器用性能银行训练（LOO 评估），使用同质性+统计+时序特征。搜索效率：计算时间仅为 Fisher 信息矩阵方法的 1/10。

实验关键数据¶

主实验¶

方法	LOO 准确率 (val选择)	LOO 准确率 (test选择)	平均计算时间
Model-free (ours)	87.5%	79.2%	0.48 min
Training-free model	66.7%	66.7%	5 min
Autotransfer (anchor)	66.7%	66.7%	50 min
Simple heuristic	70.8%	75.0%	0 min

联合 HPO 中 Relatron 比强基线最多提升 18.5%，且计算成本 10× 更低。

消融实验¶

配置	Kendall相关(无g)	Kendall相关(有g)	说明
Model-free	0.066	0.163	最佳任务相似性
Training-free	-0.038	-0.030	负相关
Autotransfer	-0.049	-0.011	昂贵且负相关

关键发现¶

RDL 不总优于 DFS：性能高度任务依赖，两者各有明显优势领域
宏观选择解决了大部分问题：选对 RDL/DFS 后，验证-测试差距显著缩小
同质性是最强预测因子：调整同质性与 RDL-DFS 差距的 Spearman \(\rho = -0.43\)
越调越差效应：更多搜索预算反而可能降低性能——Relatron 的宏观选择有效缓解
验证不可靠：时序分割下验证选择的配置与测试最优差距大

亮点与洞察¶

DFS 的被低估：在合适任务上 DFS 完全可以击败复杂的 GNN，关键是匹配任务属性
同质性驱动 RDL 优势的理论解释：低同质性时线性聚合会混淆正负信号，RDL 可学习关系权重翻转贡献
loss landscape 后选择是实用的泛化指标，可迁移到其他 AutoML 场景

局限与展望¶

任务嵌入相关性整体偏低（Kendall \(\tau\) 最高 0.163），迁移 HPO 效果有限
未纳入基础模型（如 KumoRFM）
性能银行规模有限（< 20 任务），元学习需要更大规模
Loss landscape 指标仅适用于同家族内比较

评分¶

新颖性: ⭐⭐⭐⭐ RDB 任务同质性定义新颖，但方法框架本身是标准元学习
实验充分度: ⭐⭐⭐⭐⭐ 17 任务、大规模架构搜索、性能银行、多层面消融，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，理论分析有深度
价值: ⭐⭐⭐⭐⭐ 解决了 RDB ML 的关键实践痛点，性能银行有长期研究价值