跳转至

Enhancing Transformers for Generalizable First-Order Logical Entailment

会议: ACL 2025
arXiv: 2501.00759
代码: https://github.com/HKUST-KnowComp/TEGA
领域: LLM 推理
关键词: 一阶逻辑蕴涵, Transformer, 知识图谱查询回答, OOD泛化, 位置编码

一句话总结

系统性研究 Transformer 在一阶逻辑蕴涵任务中的泛化推理能力,揭示了查询语法、token 嵌入和 Transformer 架构(特别是位置编码)的影响,并提出 TEGA(Transformer Encoder with Guided Attention)在相对位置编码设定下显著提升逻辑推理性能。

研究背景与动机

  1. 领域现状:
  2. Transformer 在算术推理、符号推理、定理证明等任务上展现了强大的推理能力
  3. 知识图谱查询回答(KGQA)是一阶逻辑蕴涵的重要应用,已有 BetaE、ConE、CQD 等多种专用方法
  4. 之前的工作研究了 Transformer 的 in-context 推理能力,但对参数化知识下的推理和 OOD 泛化研究不足

  5. 现有痛点:

  6. 现有分析局限于 in-context 知识推理,未覆盖参数化知识场景
  7. 缺乏将 OOD 泛化的两种分布偏移(concept shift 和 covariate shift)与 KGQA 任务明确关联的研究
  8. 现有基准数据集的查询类型和特征覆盖不全(最多 10 种 unseen query types)
  9. 先前的归纳偏置设计仅在绝对位置编码(APE)下有效,在更优的相对位置编码(RPE)下反而失效

  10. 核心矛盾:

  11. 现有研究未充分理解 Transformer 在一阶逻辑蕴涵中的设计空间
  12. RPE 明显优于 APE,但已有的架构改进都针对 APE,在 RPE 下无效果

  13. 本文要解决什么?

  14. 建立全面基准来评估 Transformer 在一阶逻辑蕴涵中的泛化能力
  15. 系统研究查询语法、嵌入、架构等设计选择对推理的影响
  16. 在 RPE 设定下提出有效的归纳偏置

  17. 切入角度:

  18. 将 KGQA 视为一阶逻辑蕴涵的实例,将 OOD 泛化分解为知识维度(concept shift)和查询类型维度(covariate shift)
  19. 通过大规模消融实验确定最优设计选择,再针对性提出架构改进

  20. 核心idea一句话:

  21. 通过系统实验揭示 RPE 在逻辑推理中的优势,提出 TEGA 架构在 RPE 下引入逻辑感知引导注意力来提升泛化能力

方法详解

整体框架

研究覆盖 KGQA 建模的三个核心阶段: 1. 查询语法(输入表示): Lisp-like vs EFO 语法 2. Token 嵌入: 随机初始化 vs 预训练 KG 嵌入(TransE/DistMult/ComplEx) 3. Transformer 架构: APE/DPE/RoPE/RPE + TEGA 归纳偏置

关键设计

  1. 两类分布偏移的形式化:
  2. 做什么: 将 KGQA 中的 OOD 问题分解为 concept shift(未观测知识 \(\mathcal{G}_o \to \mathcal{G}\))和 covariate shift(未见查询类型)
  3. 核心思路: \(P_{\text{train}}(Y|X) \cdot P_{\text{train}}(X) \neq P_{\text{test}}(Y|X) \cdot P_{\text{test}}(X)\)
  4. 设计动机: 为 Transformer 的泛化能力评估提供清晰的理论框架

  5. 全面基准数据集:

  6. 做什么: 构建包含 55 种查询类型(23 seen + 32 unseen)的基准,覆盖 projection、intersection、union、negation、existential、multi-hop、cyclic 等所有特征
  7. 核心思路: 在 FB15k、FB15k-237、NELL995 三个知识图谱上采样
  8. 设计动机: 现有基准覆盖不全(BetaE 仅 4 种 unseen 类型,SQE 仅 29 种)

  9. TEGA(Transformer Encoder with Guided Attention):

  10. 做什么: 在 RPE 设定下,通过逻辑感知的引导注意力引入归纳偏置
  11. 核心思路: 根据查询中 token 之间的逻辑关系(如同属一个原子公式、共享变量等)引导 self-attention 的注意力模式
  12. 设计动机: 先前的归纳偏置(如 SQE 的结构化编码)在 APE 下有效但在 RPE 下无效,需要专门为 RPE 设计新方法

损失函数 / 训练策略

  • 任务: 所有实体排列,用嵌入相似度预测答案集合
  • 评估指标: MRR(Mean Reciprocal Rank)
  • 四维度评估: ID(K)/OOD(K) × ID(Q)/OOD(Q)
  • 知识图谱在训练/测试阶段不被模型直接访问,知识需要参数化到模型中

实验关键数据

主实验

FB15k 上的 MRR(%) 结果:

方法 ID(Q)/ID(K) ID(Q)/OOD(K) OOD(Q)/ID(K) OOD(Q)/OOD(K)
BetaE 26.9 18.5 22.4 13.5
ConE 35.5 22.0 27.2 15.6
SQE-LSTM 39.9 26.3 31.5 18.5
Trans.+APE 46.9 31.9 21.8 13.2
Trans.+RPE 48.1 32.3 35.4 21.5
Trans.+RoPE 50.1 32.7 34.6 20.8
  • Transformer 全面超越专用方法: 即使是简单的 APE Transformer 也在 ID 设定下优于所有基线
  • RPE 在 OOD(Q) 上领先巨大: RPE 的 OOD(Q) 比 APE 高 13.6%(35.4 vs 21.8),证明相对位置编码对逻辑结构泛化至关重要

查询语法实验(FB15k-237): | 设置 | Lisp-like OOD(Q)/ID(K) | EFO OOD(Q)/ID(K) | |------|----------------------|-----------------| | APE | 10.0 | 10.4 | | RPE | 22.1 | 35.4 |

  • EFO 语法 + RPE 的组合在 OOD 泛化上远超 Lisp-like + RPE(35.4 vs 22.1)

预训练嵌入实验: - ComplEx 和 DistMult 可提升性能,TransE 反而不如随机初始化 - 原因: 训练过程中的嵌入学习隐式等价于 KG-BERT 式的链接预测

关键发现

  1. RPE >> APE: 相对位置编码在 OOD 查询类型泛化上有巨大优势
  2. EFO 语法 + RPE 最优: 并行结构使 token 间的逻辑关系距离更一致,RPE 更易学习
  3. APE 对排列不鲁棒: 反转查询排列后 APE 性能暴跌(54.1→27.8),RPE 不变(54.3→54.5)
  4. TEGA 在 RPE 下有效: 提供了在 RPE 设定下的有效归纳偏置
  5. Transformer 可做逻辑蕴涵: 参数化知识下 Transformer 能执行一阶逻辑蕴涵

亮点与洞察

  • 研究最彻底、覆盖最广: 55 种查询类型 × 3 个 KG × 4 种 PE × 2 种语法 × 4 种嵌入
  • OOD 泛化的清晰形式化: 将 concept shift 和 covariate shift 与 KGQA 自然对接
  • 揭示 RPE > APE 的重要现象: 这一发现对整个 Transformer 推理领域有启发意义
  • 发现现有归纳偏置在 RPE 下无效: 指出了一个被忽视的设计盲区
  • 基准数据集贡献: 32 种 unseen query types + 两种 OOD 维度的评估框架

局限性 / 可改进方向

  1. 仅研究了 KGQA 场景,一阶逻辑蕴涵的其他形式(如自然语言逻辑推理)未覆盖
  2. TEGA 的具体架构细节和性能提升幅度在文中描述不够充分
  3. 知识图谱规模有限(FB15k, FB15k-237, NELL995 都是中小型 KG)
  4. 未与 LLM(如 GPT-4)的逻辑推理能力直接比较
  5. 参数化知识的局限性:模型需要在训练时记住所有知识,无法动态更新

相关工作与启发

  • BetaE (Ren & Leskovec, 2020): 概率分布式嵌入方法,数据集最常用但查询类型少
  • SQE (Bai et al., 2023b): LSTM 结构化查询编码,29 种 unseen 类型
  • FIT (Yin et al., 2023b): 最全面的查询特征覆盖但仅 10 种 unseen 类型
  • 启发: 位置编码的选择对结构泛化有决定性影响,RPE 在需要捕捉结构关系的推理任务中应作为默认选择

评分

维度 分数 (1-10)
创新性 7
技术深度 9
实验充分性 9
写作质量 8
实用价值 7
总分 8.0