Fast-and-Frugal Text-Graph Transformers are Effective Link Predictors¶

会议: ACL 2025
arXiv: 2408.06778
代码: https://github.com/idiap/fnf-tg (有)
领域: graph_learning
关键词: 知识图谱, 归纳链接预测, 图Transformer, 文本图融合, ego-graph编码

一句话总结¶

提出 Fast-and-Frugal Text-Graph (FnF-TG) Transformer，通过 Transformer 的自注意力机制统一编码文本描述和图结构（ego-graph），在归纳链接预测任务上以小 BERT 模型超越了使用大 BERT+MPNN 的 SOTA，同时首次扩展到完全归纳设置（关系也可归纳）。

研究背景与动机¶

领域现状：知识图谱（KG）是信息抽取、问答、推理等众多任务的核心组件。文本属性知识图谱（text-attributed KG）通过为每个实体和关系关联文本描述，提供了更丰富的知识表示。归纳链接预测（inductive link prediction）要求模型能对训练时未见过的实体做出预测。
现有痛点：
早期 KG 方法（TransE, DistMult等）只能做转导式预测，无法处理新实体
利用文本描述的归纳方法需要强大但昂贵的文本编码器
StATIK 等方法使用 MPNN 处理图结构，但 MPNN 的表达能力受限
现有方法假设固定的关系集合（转导式关系），无法处理训练时未见过的关系
核心矛盾：如何在保持高效（快速且低成本）的同时，有效融合文本和图结构信息？传统方法要么依赖大型文本编码器（昂贵），要么图编码不够有效（性能受限）。
本文要解决什么：(1) 更有效地编码 ego-graph（1-hop 邻域）以减少对大型文本编码器的依赖；(2) 实现完全归纳设置，使关系也可以从文本描述计算。
切入角度：利用 Transformer 自注意力机制天然的图处理能力，将关系嵌入直接注入注意力计算中，用统一的 Transformer 架构同时处理文本和图结构。
核心idea一句话：用 Graph Transformer 编码 ego-graph，将关系嵌入作为注意力的缩放因子，即使用小 BERT 也能超越 SOTA。

方法详解¶

整体框架¶

FnF-TG 由三个组件组成： 1. Knowledge Graph (KG)：提供三元组 $(h_{KG}, r_{KG}, t_{KG})$ 及其文本描述，提取 ego-graph 2. Text Transformer Encoder (TT)：将文本描述编码为向量表示 3. Graph Transformer Encoder (GT)：融合文本嵌入和图结构信息

关键设计¶

1. Text Transformer Encoder (TT)¶

做什么：将 KG 中每个实体和关系的文本描述编码为稠密向量
核心思路：使用 BERT 的 [CLS] 向量，经两层线性投影： $$\mathbf{x}_{TT} = \sigma(\text{BERT}_{\text{size}}(x_{KG})_{[\text{CLS}]} \mathbf{W}_0) \mathbf{W}_1$$ 其中 $\sigma$ 是 SiLU 激活函数，$\mathbf{W}_0, \mathbf{W}_1 \in \mathbb{R}^{d \times d}$
查询编码：尾预测查询 $(h,r,\cdot)$ 将头实体文本和关系文本拼接 $[h||r]_{KG}$；头预测查询 $(·,r,t)$ 使用逆关系文本 $[t||r^{-1}]_{KG}$
设计动机：不同大小的 BERT（base/medium/small/mini/tiny）可灵活选择，实现速度-性能权衡

2. Graph Transformer Encoder (GT) — 核心创新¶

做什么：融合 ego-graph 的结构信息和 TT 输出的文本嵌入
核心思路：将图关系嵌入注入 Transformer 自注意力的计算中。对每对节点 $i, j$，注意力分数为： $$e_{ij} = \frac{\mathbf{x}_i \mathbf{W}_Q \cdot \text{diag}(\mathbf{1} + \text{LN}(\mathbf{r}_{ij})\mathbf{W}_R) \cdot (\mathbf{x}_j \mathbf{W}_K)^\top}{\sqrt{d}}$$ 其中 $\mathbf{r}_{ij}$ 是关系嵌入（由 TT 编码关系文本得到），通过 $\text{diag}(\mathbf{1} + ...)$ 映射为对角矩阵加单位矩阵
Segment Embedding：添加可学习的 $s_{\text{[CENTRE]}}$ 和 $s_{\text{[NEIGHBOUR]}}$ 来区分中心节点和邻居节点
信息泄露防护：确保目标三元组 $(h,r,t)$ 的信息不会泄露到 ego-graph 编码中
设计动机：利用 Transformer 内在的图处理能力（来自 G2GT 系列工作），比 MPNN 更有效。关系嵌入通过文本计算（非固定集合），实现完全归纳

3. 完全归纳关系表示¶

做什么：使关系也能从文本描述计算，处理训练时未见过的关系
核心思路：关系嵌入 $\mathbf{r}_{ij}$ 由 TT 模块编码关系文本得到，同时作为链接预测的关系表示和 GT 自注意力的输入
设计动机：突破现有方法固定关系集合的限制

损失函数/训练策略¶

目标函数：TransE 结构目标 $f_{\text{TransE}}(h,r,t) = -\|\mathbf{h} + \mathbf{r} - \mathbf{t}\|_1$
损失函数：Margin-based ranking loss： $$Loss = \sum_{(t,t') \in (T \times T')} \max(0, 1 - f(t) + f(t'))$$
负采样：双侧反射采样（two-sided reflexive），头尾实体都作为潜在负样本
受控实验设置：统一计算预算（NVIDIA RTX3090 24GB），embedding size 768，batch size 128

实验关键数据¶

主实验¶

WN18RR$_{\text{IND}}$ 和 FB15k-237$_{\text{IND}}$ 测试集结果：

模型	WN18RR MRR	WN18RR H@10	FB15k MRR	FB15k H@10
BLP (BERT-base)	0.285	0.580	0.195	0.363
StATIK (BERT-base)	0.516	0.690	0.224	0.381
FnF-T (BERT-base, text-only)	0.373	0.647	0.266	0.453
FnF-TG (BERT-base)	0.732	0.875	0.316	0.524
FnF-TG (BERT-medium)	0.737	0.873	0.314	0.515
FnF-TG (BERT-small)	0.727	0.867	0.316	0.518
FnF-TG (BERT-tiny)	0.638	0.808	0.288	0.475

Wikidata5M$_{\text{IND}}$ 测试集（迁移设置）：

模型	MRR	H@1	H@3	H@10
StATIK (BERT-base)	0.770	0.765	0.771	0.779
FnF-TG (BERT-base)	0.799	0.741	0.833	0.911

消融实验¶

受控实验设置消融（FnF-T, WN18RR$_{\text{IND}}$ MRR）：

累积改进	WN18RR MRR	FB15k MRR
BLP 原始	0.285	0.195
+ 归纳关系	0.281	0.219
+ 负样本batch绑定	0.300	0.221
+ 更大embedding	0.339	0.254
+ 更大batch	0.366	0.260
+ 更好采样	0.373	0.266

文本编码器大小影响（WN18RR$_{\text{IND}}$）： - Text-only: base=0.373 → tiny=0.193（差距0.180） - Graph-aware: base=0.732 → tiny=0.638（差距仅0.094）

关键发现¶

GT 编码器带来巨大提升：在 WN18RR 上从 0.373（text-only）提升到 0.732（+0.359），大幅超越 StATIK 的 0.516
小 BERT + GT > 大 BERT without GT：BERT-tiny + GT (0.638) 远超 BERT-base text-only (0.373)
图结构编码减少对大文本编码器的依赖：text-only 时 base→tiny 下降 0.18，加 GT 后仅下降 0.094
受控实验的重要性：仅通过改善实验设置（embedding size、batch size等），BLP 就从 0.285 提升到 0.373
迁移设置下优势缩小但仍领先：因为测试图较小、邻居较少，但 FnF-TG 的 MRR 仍优于 StATIK

亮点与洞察¶

"Fast and Frugal" 理念：通过更好的图编码减少对昂贵文本编码器的需求，在速度和成本上实现双赢
关系嵌入注入注意力机制的设计：$\text{diag}(\mathbf{1} + \text{LN}(\mathbf{r}_{ij})\mathbf{W}_R)$ 作为缩放因子非常优雅，保持了无关系时的原始注意力行为
受控实验揭示的洞察：很多所谓的 SOTA 差距其实是实验设置差异造成的，论文诚实地报告了这一发现
完全归纳设置的扩展：首次使关系也可归纳，为 KG 链接预测开辟了新方向
结构化信息是有效替代品：显式图关系的归纳偏置可以有效替代从文本中用强大编码器抽取相同信息

局限性/可改进方向¶

仅编码 1-hop 邻域（ego-graph），扩展到多跳可能进一步提升性能
完全归纳设置（unseen relations）的数据集较新，评估可能不够充分
使用 TransE 作为结构目标，更复杂的评分函数（如 RotatE）可能带来额外收益
对于 Wikidata5M$_{\text{IND}}$ 迁移设置，改进幅度有限，可能需要更好的小图处理策略
未探索与大型语言模型（如 GPT、LLaMA）结合的可能性

评分¶

新颖性: ⭐⭐⭐⭐ — 关系嵌入注入注意力的设计简洁有效，完全归纳设置是新贡献
实验充分度: ⭐⭐⭐⭐⭐ — 受控实验、多数据集、多BERT大小、消融研究非常扎实
写作质量: ⭐⭐⭐⭐⭐ — 条理清晰，受控实验部分的诚实态度值得赞赏
价值: ⭐⭐⭐⭐ — "Fast and Frugal"理念对实际部署有较大价值