跳转至

Why Isn't Relational Learning Taking Over the World?

会议: AAAI 2026
arXiv: 2507.13558
代码: 无
领域: 其他 (关系学习 / 知识图谱)
关键词: 关系学习, 知识图谱, 统计关系AI, 评估方法, 实体预测

一句话总结

本文是一篇 position paper,深入分析了关系学习(relational learning)未能在 AI 领域占据主导地位的原因——包括数据集不够真实、评估方法存在根本缺陷、缺少负例、聚合操作的理论困境等——并指出了让关系学习发挥应有潜力所需的关键改进方向。

研究背景与动机

  1. 领域现状:当前 AI 被文本和图像模型主导(GPT、Stable Diffusion 等),模型建模的是像素、词汇和音素。然而,现实世界由实体(对象、事件)及其属性和关系构成,而非这些媒介的表面形式。

  2. 现有痛点:关系学习(also known as 统计关系 AI)研究如何从实体、属性和关系中学习预测模型。几乎所有公司最有价值的数据都存储在电子表格和关系数据库中(充满产品编号、学号、交易编号等标识符),而非文本或图像形式。但关系学习并未在工业界和学术界获得应有的关注度。

  3. 核心矛盾:关系数据是最普遍、最有价值的数据形式,但关系学习的研究和应用远未达到其潜力。原因不仅是技术本身的困难,更在于研究社区在数据集构建、评估方法论和基本建模假设上的系统性问题。

  4. 本文目标:诊断关系学习未能主流化的深层原因,并为未来研究指明方向。

  5. 切入角度:从数据集、训练方法、评估指标和前瞻性需求四个维度进行系统批判性分析。

  6. 核心 idea:关系学习要发挥潜力,需要更真实的数据集、更合理的评估方法、正确处理缺失数据和负例问题,以及面向下游决策的概率预测。

方法详解

整体框架

本文并非提出具体算法,而是对关系学习领域进行系统的批判性审视。文章从以下几个核心主题展开:关系数据的本质特征、知识图谱的表示方式、标准数据集的问题、训练中负例缺失的应对、现有评估方法的缺陷、以及未来发展方向。

关键设计(核心论点)

  1. 数据集的根本问题

    • 论点:标准数据集(如 FB15k、WN18)严重偏离真实场景
    • 核心分析:FB15k 仅保留出现 >100 次的实体和关系,过滤掉了所有 reified entity(实体化实体)。但在 Wikidata 中超过 98% 的实体作为 subject 出现不到 10 个 triple。大数据通常意味着更多实体但每个实体更少数据,形成长尾分布。在这种过滤后的数据集上训练和评估的方法无法推广到更真实的场景
    • 启发意义:FB15k-237 移除了反向关系来测试方法是否能利用逆关系之外的规律,但它和 FB15k 测试的是不同能力,不应视为"更好"
  2. 训练中负例缺失的困境

    • 论点:开放世界假设下缺少负例是关系学习的根本挑战
    • 核心分析:在只有正例的数据集上,优化 log loss 的最优预测是"一切都为真"——训练损失为零但测试损失无穷。通常用对比学习(添加随机 triple 作为负例)来缓解,但负正例比例的选择本质上是"虚构的输入",不像先验概率那样会被观测数据覆盖。关系模型区别于表格模型的两个关键特性:参数共享/权重绑定和聚合操作
    • 启发意义:如何在没有负例的情况下估计概率是一个需要外部元信息才能解决的根本问题
  3. 评估方法的系统性缺陷

    • 论点:当前主流的排名评估方式(MRR、hit@k)存在多重根本性问题
    • 核心分析:(1) 无法处理"无答案"的情况(如"教皇的配偶是谁?");(2) 查询本身泄露了测试集信息;(3) 某些查询过于简单(如预测足球队位置 hit@10 几乎必中);(4) 某些查询几乎不可能正确(如预测哪支球队有前锋——全知者也无法猜中);(5) 排名丢失了实际概率信息——过度自信和适度不确定的预测器可能产生相同排序;(6) 脱离了下游决策任务
    • 启发意义:SOTA 方法在 FB15k-237 上 hit@10 仅约 55.8%,对于无法轻松验证正确性的真实任务而言用处有限

聚合问题

聚合操作(如从用户看过的电影预测性别)是关系学习的"阿喀琉斯之踵"。现有方法要么假设相关实体提供独立证据(如 noisy-or、sum、logistic regression),要么等效于只有一个相关实体(如 max、average、attention)。判断证据是否独立非常困难,且当相关实体数量从零到无穷变化时,模型行为往往不合理。

前瞻性方向

  • 需要真实的公共数据集(如政府环境数据),而非因"无人关心"而公开的数据
  • 需要概率预测配合效用函数来支持下游决策
  • 需要显式建模数据缺失原因(非随机缺失)
  • 预测实体时需考虑三种答案类型:已知实体、未表示的实体、无实体
  • 需要区分学习通用知识与学习特定实体的属性
  • 嵌入/隐特征的维度应与实体复杂度匹配,而非固定大小
  • 终极目标是联合多个异构数据集进行建模——这本质上就是科学

实验关键数据

本文为 position paper,不包含新实验。但引用了以下关键数据:

方面 数据 说明
Wikidata 规模 ~16.5 亿 triple,1.17 亿 item 大规模知识图谱
实体稀疏性 98%+ 的实体 <10 个 triple 标准数据集过滤掉了这些
FB15k-237 SOTA hit@10 ≈ 55.8% 远非可靠的实际应用水平
随机 triple 准确率 >99.9999999995% 绝大多数随机 triple 是假的 —— 准确率不是合理指标

关键发现

  • 关系学习的评估框架与实际应用需求严重脱节
  • 标准基准数据集的构建方式(过滤低频实体)系统性地简化了问题
  • 知识图谱比图学习基准更加异质,唯一通用结构是 reification 引入的
  • 缺失数据不是随机缺失的——大多数事实在知识库中是缺失的

亮点与洞察

  • 犀利的批判性分析:用简洁有力的例子(教皇配偶、足球队位置预测)揭示评估方法的荒谬性
  • Wikidata 实例的使用非常直观,Christine Sinclair 的例子让抽象概念具象化
  • 聚合问题的理论分析深刻——独立性假设和无限实体极限下的行为是关系学习的核心困难
  • 跨学科视角:将关系学习的终极目标与科学方法论联系起来——联合异构数据、构建可修正假说
  • 明确指出概率预测 + 效用理论对下游决策的必要性

局限与展望

  • 作为 position paper,缺乏对所提方向的具体方法验证
  • 对 LLM 在关系推理中的潜力讨论不足——LLM 是否能部分解决关系学习的某些困难?
  • 对近年来知识图谱嵌入方法(如 KG-BERT、StAR 等结合文本的方法)的讨论较少
  • 建议的"联合多异构数据集"方向虽然宏大但缺乏具体可行路径

相关工作与启发

  • vs 知识图谱嵌入(TransE 等):固定大小嵌入不合理——美国和一个球员-球队关系不应有相同维度的嵌入
  • vs 图神经网络:图学习和关系学习是同构问题,但典型关系数据库的结构与图基准差异巨大
  • vs LLM/GenAI:当前 AI 建模的是感知或描述(词、像素),而非实体和关系本身

评分

  • 新颖性: ⭐⭐⭐⭐ 虽然一些观点在社区有先例,但系统性地整合并提出建设性方向是有价值的
  • 实验充分度: ⭐⭐ position paper,无实验验证
  • 写作质量: ⭐⭐⭐⭐⭐ 行文风格独特、幽默而犀利,例子精心选择,可读性极强
  • 价值: ⭐⭐⭐⭐ 对关系学习社区有重要的反思价值,但对更广泛的 AI 社区影响力有限

相关论文