Enhancing Transformers for Generalizable First-Order Logical Entailment¶
会议: ACL 2025
arXiv: 2501.00759
代码: https://github.com/HKUST-KnowComp/TEGA
领域: LLM 推理
关键词: 一阶逻辑蕴涵, Transformer, 知识图谱查询回答, OOD泛化, 位置编码
一句话总结¶
系统性研究 Transformer 在一阶逻辑蕴涵任务中的泛化推理能力,揭示了查询语法、token 嵌入和 Transformer 架构(特别是位置编码)的影响,并提出 TEGA(Transformer Encoder with Guided Attention)在相对位置编码设定下显著提升逻辑推理性能。
研究背景与动机¶
- 领域现状:
- Transformer 在算术推理、符号推理、定理证明等任务上展现了强大的推理能力
- 知识图谱查询回答(KGQA)是一阶逻辑蕴涵的重要应用,已有 BetaE、ConE、CQD 等多种专用方法
-
之前的工作研究了 Transformer 的 in-context 推理能力,但对参数化知识下的推理和 OOD 泛化研究不足
-
现有痛点:
- 现有分析局限于 in-context 知识推理,未覆盖参数化知识场景
- 缺乏将 OOD 泛化的两种分布偏移(concept shift 和 covariate shift)与 KGQA 任务明确关联的研究
- 现有基准数据集的查询类型和特征覆盖不全(最多 10 种 unseen query types)
-
先前的归纳偏置设计仅在绝对位置编码(APE)下有效,在更优的相对位置编码(RPE)下反而失效
-
核心矛盾:
- 现有研究未充分理解 Transformer 在一阶逻辑蕴涵中的设计空间
-
RPE 明显优于 APE,但已有的架构改进都针对 APE,在 RPE 下无效果
-
本文要解决什么?
- 建立全面基准来评估 Transformer 在一阶逻辑蕴涵中的泛化能力
- 系统研究查询语法、嵌入、架构等设计选择对推理的影响
-
在 RPE 设定下提出有效的归纳偏置
-
切入角度:
- 将 KGQA 视为一阶逻辑蕴涵的实例,将 OOD 泛化分解为知识维度(concept shift)和查询类型维度(covariate shift)
-
通过大规模消融实验确定最优设计选择,再针对性提出架构改进
-
核心idea一句话:
- 通过系统实验揭示 RPE 在逻辑推理中的优势,提出 TEGA 架构在 RPE 下引入逻辑感知引导注意力来提升泛化能力
方法详解¶
整体框架¶
研究覆盖 KGQA 建模的三个核心阶段: 1. 查询语法(输入表示): Lisp-like vs EFO 语法 2. Token 嵌入: 随机初始化 vs 预训练 KG 嵌入(TransE/DistMult/ComplEx) 3. Transformer 架构: APE/DPE/RoPE/RPE + TEGA 归纳偏置
关键设计¶
- 两类分布偏移的形式化:
- 做什么: 将 KGQA 中的 OOD 问题分解为 concept shift(未观测知识 \(\mathcal{G}_o \to \mathcal{G}\))和 covariate shift(未见查询类型)
- 核心思路: \(P_{\text{train}}(Y|X) \cdot P_{\text{train}}(X) \neq P_{\text{test}}(Y|X) \cdot P_{\text{test}}(X)\)
-
设计动机: 为 Transformer 的泛化能力评估提供清晰的理论框架
-
全面基准数据集:
- 做什么: 构建包含 55 种查询类型(23 seen + 32 unseen)的基准,覆盖 projection、intersection、union、negation、existential、multi-hop、cyclic 等所有特征
- 核心思路: 在 FB15k、FB15k-237、NELL995 三个知识图谱上采样
-
设计动机: 现有基准覆盖不全(BetaE 仅 4 种 unseen 类型,SQE 仅 29 种)
-
TEGA(Transformer Encoder with Guided Attention):
- 做什么: 在 RPE 设定下,通过逻辑感知的引导注意力引入归纳偏置
- 核心思路: 根据查询中 token 之间的逻辑关系(如同属一个原子公式、共享变量等)引导 self-attention 的注意力模式
- 设计动机: 先前的归纳偏置(如 SQE 的结构化编码)在 APE 下有效但在 RPE 下无效,需要专门为 RPE 设计新方法
损失函数 / 训练策略¶
- 任务: 所有实体排列,用嵌入相似度预测答案集合
- 评估指标: MRR(Mean Reciprocal Rank)
- 四维度评估: ID(K)/OOD(K) × ID(Q)/OOD(Q)
- 知识图谱在训练/测试阶段不被模型直接访问,知识需要参数化到模型中
实验关键数据¶
主实验¶
FB15k 上的 MRR(%) 结果:
| 方法 | ID(Q)/ID(K) | ID(Q)/OOD(K) | OOD(Q)/ID(K) | OOD(Q)/OOD(K) |
|---|---|---|---|---|
| BetaE | 26.9 | 18.5 | 22.4 | 13.5 |
| ConE | 35.5 | 22.0 | 27.2 | 15.6 |
| SQE-LSTM | 39.9 | 26.3 | 31.5 | 18.5 |
| Trans.+APE | 46.9 | 31.9 | 21.8 | 13.2 |
| Trans.+RPE | 48.1 | 32.3 | 35.4 | 21.5 |
| Trans.+RoPE | 50.1 | 32.7 | 34.6 | 20.8 |
- Transformer 全面超越专用方法: 即使是简单的 APE Transformer 也在 ID 设定下优于所有基线
- RPE 在 OOD(Q) 上领先巨大: RPE 的 OOD(Q) 比 APE 高 13.6%(35.4 vs 21.8),证明相对位置编码对逻辑结构泛化至关重要
查询语法实验(FB15k-237): | 设置 | Lisp-like OOD(Q)/ID(K) | EFO OOD(Q)/ID(K) | |------|----------------------|-----------------| | APE | 10.0 | 10.4 | | RPE | 22.1 | 35.4 |
- EFO 语法 + RPE 的组合在 OOD 泛化上远超 Lisp-like + RPE(35.4 vs 22.1)
预训练嵌入实验: - ComplEx 和 DistMult 可提升性能,TransE 反而不如随机初始化 - 原因: 训练过程中的嵌入学习隐式等价于 KG-BERT 式的链接预测
关键发现¶
- RPE >> APE: 相对位置编码在 OOD 查询类型泛化上有巨大优势
- EFO 语法 + RPE 最优: 并行结构使 token 间的逻辑关系距离更一致,RPE 更易学习
- APE 对排列不鲁棒: 反转查询排列后 APE 性能暴跌(54.1→27.8),RPE 不变(54.3→54.5)
- TEGA 在 RPE 下有效: 提供了在 RPE 设定下的有效归纳偏置
- Transformer 可做逻辑蕴涵: 参数化知识下 Transformer 能执行一阶逻辑蕴涵
亮点与洞察¶
- 研究最彻底、覆盖最广: 55 种查询类型 × 3 个 KG × 4 种 PE × 2 种语法 × 4 种嵌入
- OOD 泛化的清晰形式化: 将 concept shift 和 covariate shift 与 KGQA 自然对接
- 揭示 RPE > APE 的重要现象: 这一发现对整个 Transformer 推理领域有启发意义
- 发现现有归纳偏置在 RPE 下无效: 指出了一个被忽视的设计盲区
- 基准数据集贡献: 32 种 unseen query types + 两种 OOD 维度的评估框架
局限性 / 可改进方向¶
- 仅研究了 KGQA 场景,一阶逻辑蕴涵的其他形式(如自然语言逻辑推理)未覆盖
- TEGA 的具体架构细节和性能提升幅度在文中描述不够充分
- 知识图谱规模有限(FB15k, FB15k-237, NELL995 都是中小型 KG)
- 未与 LLM(如 GPT-4)的逻辑推理能力直接比较
- 参数化知识的局限性:模型需要在训练时记住所有知识,无法动态更新
相关工作与启发¶
- BetaE (Ren & Leskovec, 2020): 概率分布式嵌入方法,数据集最常用但查询类型少
- SQE (Bai et al., 2023b): LSTM 结构化查询编码,29 种 unseen 类型
- FIT (Yin et al., 2023b): 最全面的查询特征覆盖但仅 10 种 unseen 类型
- 启发: 位置编码的选择对结构泛化有决定性影响,RPE 在需要捕捉结构关系的推理任务中应作为默认选择
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 7 |
| 技术深度 | 9 |
| 实验充分性 | 9 |
| 写作质量 | 8 |
| 实用价值 | 7 |
| 总分 | 8.0 |