跳转至

Relatron: Automating Relational Machine Learning over Relational Databases

会议: ICLR 2026
arXiv: 2602.22552
代码: https://github.com/amazon-science/Automating-Relational-Machine-Learning
领域: 图学习 / AutoML
关键词: 关系数据库, 图神经网络, 深度特征合成, 架构选择, 同质性

一句话总结

系统比较关系深度学习(RDL/GNN)和深度特征合成(DFS)在关系数据库预测任务上的性能,发现两者各有优势且高度任务依赖,提出 Relatron——基于任务嵌入的元选择器,通过 RDB 任务同质性和亲和力嵌入实现自动架构选择,在联合架构-超参搜索中提升达 18.5%。

研究背景与动机

领域现状:关系数据库(RDB)上的预测建模有两大路线:DFS(程序化组合聚合原语生成特征表,再用表格学习器)和 RDL(在异构实体-关系图上端到端训练 GNN)。两者都优于关系无关的基线。

现有痛点:两种范式何时更优完全未知。从业者缺乏选择 DFS vs RDL 的原则性指导。验证性能常常是不可靠的选择代理——更多搜索反而导致更差的测试性能("越调越差"效应)。

核心矛盾:(a) 没有单一架构在所有任务上占优;(b) 验证集选择的配置与测试最优配置之间存在显著差距,尤其在时序分割导致分布偏移时。

本文目标:给定 RDB 任务,自动选择 RDL 还是 DFS,以及具体架构配置。

切入角度:通过大规模架构搜索构建"性能银行",分析驱动 RDL-DFS 性能差距的因素,发现 RDB 任务同质性和训练规模是关键预测因子。

核心 idea:同质性高 → DFS 线性聚合就够;同质性低 → RDL 的非线性聚合有优势。通过任务嵌入(同质性+亲和力+规模)训练元分类器,实现自动宏观和微观架构选择。

方法详解

整体框架

构建 RDL 和 DFS 的分解设计空间 → 大规模架构搜索生成性能银行 → 分析性能差距驱动因素 → 设计任务嵌入 → 训练元选择器 Relatron → 用 loss landscape 指标做后选择。

关键设计

  1. RDB 任务同质性(Definition 1):

    • 功能:度量 RDB 任务中标签沿元路径的一致性
    • 核心思路:在增强异构图上定义自循环元路径 \(m\),计算 \(H(\mathcal{G};m) = \frac{1}{|\mathcal{E}_m|}\sum \mathcal{K}(\hat{y}_u, \hat{y}_v)\)。分类任务用点积度量,回归任务用 Pearson 相关度量。还支持调整同质性(adjusted homophily)校正类别不平衡
    • 设计动机:Spearman \(\rho = -0.43\) (\(p < 0.05\)) 表明同质性与 RDL-DFS 性能差距强相关。低同质性 → RDL 优势大
  2. 锚点亲和力嵌入:

    • 功能:捕获结构、特征和时序属性
    • 核心思路:路径亲和力(随机初始化 GraphSAGE/NBFNet 单次前向+线性拟合),特征亲和力(TabPFN 零训练验证性能),时序亲和力(标签随时间的统计量),\(\log(N_{train})\) 训练规模
    • 设计动机:同质性仅捕获消息传递偏好,还需路径模型偏好、特征质量、时序动态等信号
  3. Loss Landscape 后选择:

    • 功能:在验证性能 top 候选中选择更鲁棒的检查点
    • 核心思路:三个指标——一阶 \(P_1\)(最差有限差分斜率)、二阶 \(P_2\)(Hessian 最大特征值)、能量势垒 \(P_{bar}\)(沿射线的最大损失隆起)。倾向平坦极小值
    • 设计动机:验证-测试差距反映在 loss landscape 几何中,更平坦的极小值对分布偏移更鲁棒

损失函数 / 训练策略

元分类器用性能银行训练(LOO 评估),使用同质性+统计+时序特征。搜索效率:计算时间仅为 Fisher 信息矩阵方法的 1/10。

实验关键数据

主实验

方法 LOO 准确率 (val选择) LOO 准确率 (test选择) 平均计算时间
Model-free (ours) 87.5% 79.2% 0.48 min
Training-free model 66.7% 66.7% 5 min
Autotransfer (anchor) 66.7% 66.7% 50 min
Simple heuristic 70.8% 75.0% 0 min

联合 HPO 中 Relatron 比强基线最多提升 18.5%,且计算成本 10× 更低。

消融实验

配置 Kendall相关(无g) Kendall相关(有g) 说明
Model-free 0.066 0.163 最佳任务相似性
Training-free -0.038 -0.030 负相关
Autotransfer -0.049 -0.011 昂贵且负相关

关键发现

  • RDL 不总优于 DFS:性能高度任务依赖,两者各有明显优势领域
  • 宏观选择解决了大部分问题:选对 RDL/DFS 后,验证-测试差距显著缩小
  • 同质性是最强预测因子:调整同质性与 RDL-DFS 差距的 Spearman \(\rho = -0.43\)
  • 越调越差效应:更多搜索预算反而可能降低性能——Relatron 的宏观选择有效缓解
  • 验证不可靠:时序分割下验证选择的配置与测试最优差距大

亮点与洞察

  • DFS 的被低估:在合适任务上 DFS 完全可以击败复杂的 GNN,关键是匹配任务属性
  • 同质性驱动 RDL 优势的理论解释:低同质性时线性聚合会混淆正负信号,RDL 可学习关系权重翻转贡献
  • loss landscape 后选择是实用的泛化指标,可迁移到其他 AutoML 场景

局限与展望

  • 任务嵌入相关性整体偏低(Kendall \(\tau\) 最高 0.163),迁移 HPO 效果有限
  • 未纳入基础模型(如 KumoRFM)
  • 性能银行规模有限(< 20 任务),元学习需要更大规模
  • Loss landscape 指标仅适用于同家族内比较

相关工作与启发

  • vs KumoRFM:关系基础模型性能强但细节未公开。Relatron 聚焦于从头训练的高效场景
  • vs Autotransfer:基于 Fisher 信息矩阵的任务嵌入计算成本高且在 RDB 上效果不佳
  • vs Griffin:跨表注意力但常输给 GNN

评分

  • 新颖性: ⭐⭐⭐⭐ RDB 任务同质性定义新颖,但方法框架本身是标准元学习
  • 实验充分度: ⭐⭐⭐⭐⭐ 17 任务、大规模架构搜索、性能银行、多层面消融,非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,理论分析有深度
  • 价值: ⭐⭐⭐⭐⭐ 解决了 RDB ML 的关键实践痛点,性能银行有长期研究价值

相关论文