Enhancing Transformers for Generalizable First-Order Logical Entailment¶

会议: ACL 2025
arXiv: 2501.00759
代码: https://github.com/HKUST-KnowComp/TEGA
领域: LLM 推理
关键词: 一阶逻辑蕴涵, Transformer, 知识图谱查询回答, OOD泛化, 位置编码

一句话总结¶

系统性研究 Transformer 在一阶逻辑蕴涵任务中的泛化推理能力，揭示了查询语法、token 嵌入和 Transformer 架构（特别是位置编码）的影响，并提出 TEGA（Transformer Encoder with Guided Attention）在相对位置编码设定下显著提升逻辑推理性能。

研究背景与动机¶

领域现状:
Transformer 在算术推理、符号推理、定理证明等任务上展现了强大的推理能力
知识图谱查询回答（KGQA）是一阶逻辑蕴涵的重要应用，已有 BetaE、ConE、CQD 等多种专用方法
之前的工作研究了 Transformer 的 in-context 推理能力，但对参数化知识下的推理和 OOD 泛化研究不足
现有痛点:
现有分析局限于 in-context 知识推理，未覆盖参数化知识场景
缺乏将 OOD 泛化的两种分布偏移（concept shift 和 covariate shift）与 KGQA 任务明确关联的研究
现有基准数据集的查询类型和特征覆盖不全（最多 10 种 unseen query types）
先前的归纳偏置设计仅在绝对位置编码（APE）下有效，在更优的相对位置编码（RPE）下反而失效
核心矛盾:
现有研究未充分理解 Transformer 在一阶逻辑蕴涵中的设计空间
RPE 明显优于 APE，但已有的架构改进都针对 APE，在 RPE 下无效果
本文要解决什么？
建立全面基准来评估 Transformer 在一阶逻辑蕴涵中的泛化能力
系统研究查询语法、嵌入、架构等设计选择对推理的影响
在 RPE 设定下提出有效的归纳偏置
切入角度:
将 KGQA 视为一阶逻辑蕴涵的实例，将 OOD 泛化分解为知识维度（concept shift）和查询类型维度（covariate shift）
通过大规模消融实验确定最优设计选择，再针对性提出架构改进
核心idea一句话:
通过系统实验揭示 RPE 在逻辑推理中的优势，提出 TEGA 架构在 RPE 下引入逻辑感知引导注意力来提升泛化能力

方法详解¶

整体框架¶

研究覆盖 KGQA 建模的三个核心阶段： 1. 查询语法（输入表示）: Lisp-like vs EFO 语法 2. Token 嵌入: 随机初始化 vs 预训练 KG 嵌入（TransE/DistMult/ComplEx） 3. Transformer 架构: APE/DPE/RoPE/RPE + TEGA 归纳偏置

关键设计¶

两类分布偏移的形式化:
做什么: 将 KGQA 中的 OOD 问题分解为 concept shift（未观测知识 \(\mathcal{G}_o \to \mathcal{G}\)）和 covariate shift（未见查询类型）
核心思路: \(P_{\text{train}}(Y|X) \cdot P_{\text{train}}(X) \neq P_{\text{test}}(Y|X) \cdot P_{\text{test}}(X)\)
设计动机: 为 Transformer 的泛化能力评估提供清晰的理论框架
全面基准数据集:
做什么: 构建包含 55 种查询类型（23 seen + 32 unseen）的基准，覆盖 projection、intersection、union、negation、existential、multi-hop、cyclic 等所有特征
核心思路: 在 FB15k、FB15k-237、NELL995 三个知识图谱上采样
设计动机: 现有基准覆盖不全（BetaE 仅 4 种 unseen 类型，SQE 仅 29 种）
TEGA（Transformer Encoder with Guided Attention）:
做什么: 在 RPE 设定下，通过逻辑感知的引导注意力引入归纳偏置
核心思路: 根据查询中 token 之间的逻辑关系（如同属一个原子公式、共享变量等）引导 self-attention 的注意力模式
设计动机: 先前的归纳偏置（如 SQE 的结构化编码）在 APE 下有效但在 RPE 下无效，需要专门为 RPE 设计新方法

损失函数 / 训练策略¶

任务: 所有实体排列，用嵌入相似度预测答案集合
评估指标: MRR（Mean Reciprocal Rank）
四维度评估: ID(K)/OOD(K) × ID(Q)/OOD(Q)
知识图谱在训练/测试阶段不被模型直接访问，知识需要参数化到模型中

实验关键数据¶

主实验¶

FB15k 上的 MRR(%) 结果：

方法	ID(Q)/ID(K)	ID(Q)/OOD(K)	OOD(Q)/ID(K)	OOD(Q)/OOD(K)
BetaE	26.9	18.5	22.4	13.5
ConE	35.5	22.0	27.2	15.6
SQE-LSTM	39.9	26.3	31.5	18.5
Trans.+APE	46.9	31.9	21.8	13.2
Trans.+RPE	48.1	32.3	35.4	21.5
Trans.+RoPE	50.1	32.7	34.6	20.8

Transformer 全面超越专用方法: 即使是简单的 APE Transformer 也在 ID 设定下优于所有基线
RPE 在 OOD(Q) 上领先巨大: RPE 的 OOD(Q) 比 APE 高 13.6%（35.4 vs 21.8），证明相对位置编码对逻辑结构泛化至关重要

查询语法实验（FB15k-237）： | 设置 | Lisp-like OOD(Q)/ID(K) | EFO OOD(Q)/ID(K) | |------|----------------------|-----------------| | APE | 10.0 | 10.4 | | RPE | 22.1 | 35.4 |

EFO 语法 + RPE 的组合在 OOD 泛化上远超 Lisp-like + RPE（35.4 vs 22.1）

预训练嵌入实验： - ComplEx 和 DistMult 可提升性能，TransE 反而不如随机初始化 - 原因: 训练过程中的嵌入学习隐式等价于 KG-BERT 式的链接预测

关键发现¶

RPE >> APE: 相对位置编码在 OOD 查询类型泛化上有巨大优势
EFO 语法 + RPE 最优: 并行结构使 token 间的逻辑关系距离更一致，RPE 更易学习
APE 对排列不鲁棒: 反转查询排列后 APE 性能暴跌（54.1→27.8），RPE 不变（54.3→54.5）
TEGA 在 RPE 下有效: 提供了在 RPE 设定下的有效归纳偏置
Transformer 可做逻辑蕴涵: 参数化知识下 Transformer 能执行一阶逻辑蕴涵

亮点与洞察¶

研究最彻底、覆盖最广: 55 种查询类型 × 3 个 KG × 4 种 PE × 2 种语法 × 4 种嵌入
OOD 泛化的清晰形式化: 将 concept shift 和 covariate shift 与 KGQA 自然对接
揭示 RPE > APE 的重要现象: 这一发现对整个 Transformer 推理领域有启发意义
发现现有归纳偏置在 RPE 下无效: 指出了一个被忽视的设计盲区
基准数据集贡献: 32 种 unseen query types + 两种 OOD 维度的评估框架

局限性 / 可改进方向¶

仅研究了 KGQA 场景，一阶逻辑蕴涵的其他形式（如自然语言逻辑推理）未覆盖
TEGA 的具体架构细节和性能提升幅度在文中描述不够充分
知识图谱规模有限（FB15k, FB15k-237, NELL995 都是中小型 KG）
未与 LLM（如 GPT-4）的逻辑推理能力直接比较
参数化知识的局限性：模型需要在训练时记住所有知识，无法动态更新

评分¶

维度	分数 (1-10)
创新性	7
技术深度	9
实验充分性	9
写作质量	8
实用价值	7
总分	8.0