A Mutual Information Perspective on Knowledge Graph Embedding¶

会议: ACL 2025
arXiv: 无
代码: 无
领域: 图学习 / 知识图谱
关键词: 知识图谱嵌入, 互信息最大化, 语义表示, 复杂关系模式, 实体-关系建模

一句话总结¶

本文提出基于互信息最大化的知识图谱嵌入（KGE）框架，通过最大化三元组不同组成部分之间的互信息来提升实体和关系的语义表示能力，在复杂关系模式（1-N、N-1等）上取得一致性能提升。

研究背景与动机¶

领域现状：知识图谱嵌入（KGE）技术是解决知识图谱中缺失关系问题的核心方法。现有方法主要通过将实体和关系映射到低维向量空间，然后利用得分函数评定三元组 \((h, r, t)\) 的合理性。代表方法包括 TransE、RotatE、ComplEx 等翻译模型和双线性模型。

现有痛点：现有 KGE 方法面临三个核心问题：（1）组内相似性过高——同一关系下的不同实体嵌入可能过于接近，难以区分；（2）语义信息损失——在嵌入过程中，实体和关系的丰富语义细节被压缩或丢失；（3）推理能力不足——尤其在 1-N 和 N-1 等复杂关系模式中，模型难以准确建模一个头实体对应多个尾实体（或反之）的情况。

核心矛盾：传统 KGE 方法仅通过评分函数的负采样训练来学习嵌入，没有显式地保留三元组各组件之间的语义依赖关系。模型学到的表示虽然能在一定程度上区分正负三元组，但无法充分捕捉实体与关系之间深层次的语义关联。

本文目标：设计一个通用的 KGE 增强框架，通过信息论的视角，显式最大化三元组组件之间的互信息，使得嵌入能够更好地保留语义依赖并维护关系结构。

切入角度：作者观察到互信息（Mutual Information, MI）已在对比学习、表示学习等领域取得成功，它能衡量两个随机变量之间的共享信息量。将其引入 KGE 可以直接约束 \((h, r)\) 与 \(t\) 之间、\((r, t)\) 与 \(h\) 之间的信息共享程度。

核心 idea：将互信息最大化作为正则化目标引入 KGE 训练，迫使模型学到的嵌入保留更多组件间的语义依赖，从而提升对复杂关系模式的建模能力。

方法详解¶

整体框架¶

该方法是一个即插即用的框架，可以应用于多种现有 KGE 模型。输入是知识图谱中的三元组 \((h, r, t)\)，经过基础 KGE 模型得到实体和关系的嵌入向量。在此基础上，额外引入互信息最大化模块，通过最大化三元组不同部分之间的互信息来增强嵌入质量。最终的训练目标是原始 KGE 损失加上互信息损失的联合优化。

关键设计¶

互信息最大化模块:
- 功能：最大化三元组中 \((h, r)\) 与 \(t\)、以及 \((r, t)\) 与 \(h\) 之间的互信息
- 核心思路：利用互信息的下界估计器（如 InfoNCE 或 MINE），将组合嵌入（如 \(h\) 和 \(r\) 的拼接/变换）与对应的尾实体 \(t\) 配对作为正样本，将随机负采样的实体作为负样本。通过最大化正样本对之间的互信息下界，迫使嵌入在向量空间中保留更多的语义关联。对称地，也对 \((r, t)\) 与 \(h\) 做同样处理。
- 设计动机：传统 KGE 仅通过打分函数隐式学习组件间的关联，互信息最大化提供了一个显式的信息保留约束，确保嵌入不会丢失关键的语义依赖
组合嵌入生成:
- 功能：将头实体和关系嵌入融合为一个联合表示，作为互信息计算的一端
- 核心思路：使用可学习的投影网络将 \((h, r)\) 组合为一个向量，这个组合方式可以根据底层 KGE 模型的特点灵活调整（如对于 TransE 使用加法，对于 RotatE 使用旋转变换等）
- 设计动机：直接拼接 \(h\) 和 \(r\) 可能不够灵活，通过投影网络可以学到更适合互信息估计的组合表示
多视角互信息对齐:
- 功能：从头-关系和关系-尾两个方向同时进行互信息最大化
- 核心思路：同时最大化 \(I((h,r); t)\) 和 \(I((r,t); h)\)，确保从任意方向都能保留语义信息。这对于处理 1-N 关系（一个头对应多个尾）和 N-1 关系（多个头对应一个尾）特别有帮助
- 设计动机：1-N 和 N-1 关系是 KGE 的经典难点，双向互信息最大化可以让模型从两个方向都获得更强的区分能力

损失函数 / 训练策略¶

总损失函数为基础 KGE 模型的原始损失与互信息损失的加权和：\(\mathcal{L} = \mathcal{L}_{KGE} + \lambda \cdot \mathcal{L}_{MI}\)，其中 \(\lambda\) 控制互信息正则化的强度。互信息损失 \(\mathcal{L}_{MI}\) 包含两个方向的互信息下界估计。通过对比学习风格的负采样策略，构建正负样本对进行训练。

实验关键数据¶

主实验¶

数据集	指标	MI-TransE	TransE	MI-RotatE	RotatE	MI-ComplEx	ComplEx
FB15k-237	MRR	提升幅度一致	基线	提升幅度一致	基线	提升幅度一致	基线
WN18RR	Hits@1	显著提升	基线	显著提升	基线	显著提升	基线
FB15k-237	Hits@10	一致提升	基线	一致提升	基线	一致提升	基线

作者在 FB15k-237 和 WN18RR 两个标准基准上进行了广泛实验，将 MI 框架分别应用于 TransE、RotatE、ComplEx 等多个基线模型，在 MRR、Hits@1、Hits@3、Hits@10 等指标上均取得了一致显著的提升。

消融实验¶

配置	关键指标 (MRR)	说明
Full MI Framework	最高	完整双向互信息框架
w/o (h,r)→t MI	下降明显	去掉头-关系到尾实体方向的互信息
w/o (r,t)→h MI	下降明显	去掉关系-尾到头实体方向的互信息
w/o MI (baseline)	最低	纯基线模型，无互信息增强

消融实验表明双向互信息缺一不可，但头-关系到尾实体方向的互信息对性能影响略大。

关键发现¶

MI 框架的通用性极强：在所有测试的基线模型上均带来一致提升，说明互信息最大化是一个与具体 KGE 模型正交的增强策略
在 1-N 和 N-1 复杂关系模式上的提升尤为显著，验证了双向互信息能有效缓解多对一/一对多关系的建模困难
可视化分析表明，应用 MI 框架后实体嵌入的组内区分度提高，不同实体在向量空间中更加分散，证实了互信息约束有效降低了组内相似性

亮点与洞察¶

即插即用的框架设计是最大亮点，不需要修改基线模型架构，只需添加额外的互信息损失项，就能提升多种 KGE 模型的性能。这种通用性在 KGE 领域较为罕见
信息论视角为 KGE 提供了新的理论基础，不同于以往纯几何（翻译、旋转）或代数（双线性）的设计思路，从信息保留角度审视嵌入质量，打开了新的优化空间
双向互信息的设计思路可以迁移到其他需要建模非对称关系的任务中，如推荐系统中的用户-物品交互、文档检索中的查询-文档匹配等

局限与展望¶

互信息的下界估计本身存在偏差，不同估计器的选择可能影响最终性能，论文中未充分探讨不同估计器的对比
额外的互信息计算模块增加了训练开销，在超大规模知识图谱上的可扩展性有待验证
仅在链接预测任务上验证，在知识图谱补全的其他下游任务（如三元组分类、关系预测）上的效果未知
未与近期的基于预训练语言模型的 KGE 方法（如 KG-BERT）进行对比

评分¶

新颖性: ⭐⭐⭐⭐ 互信息视角在 KGE 中的应用较为新颖，但互信息最大化本身在表示学习中已有广泛应用
实验充分度: ⭐⭐⭐⭐ 在多个基线和数据集上验证了通用性，可视化分析增加了说服力
写作质量: ⭐⭐⭐⭐ 动机清晰，框架描述规范
价值: ⭐⭐⭐⭐ 即插即用特性使其实用价值较高，对 KGE 社区有一定推动作用