MoEMeta: Mixture-of-Experts Meta Learning for Few-Shot Relational Learning¶

会议: NeurIPS 2025
arXiv: 2510.23013
代码: GitHub
领域: 图学习
关键词: 知识图谱, 少样本关系学习, 元学习, 混合专家, 任务适应

一句话总结¶

提出MoEMeta框架，通过混合专家模型学习全局共享的关系原型实现跨任务泛化，结合任务定制的投影适应机制捕获局部上下文，在三个KG基准上达到SOTA。

研究背景与动机¶

少样本知识图谱关系学习(FSRL)旨在仅凭少量训练三元组推理新关系。现有基于MAML的方法存在两个关键缺陷：

忽视跨任务共享模式：假设元训练任务独立同分布(i.i.d.)，逐任务孤立学习元知识。但KG中的关系天然存在语义聚类——例如FatherOfPerson和BrotherOf共享"家庭纽带"主题，而ColorOf属于"物理属性"。忽略这种跨任务共性阻碍泛化

全局参数缺乏灵活性：使用单一全局初始化加梯度更新进行适应，而KG中的实体和关系展示多样化交互模式（1-1、1-N、N-1、N-N）。例如Elon Musk作为CeoOf和FatherOfPerson呈现完全不同的方面，共享初始化难以捕获如此不同的局部上下文

核心挑战：如何将全局共享知识与任务特定上下文解耦，同时实现有效泛化和快速适应？

方法详解¶

整体框架¶

MoEMeta包含三个核心组件：(1) 注意力邻居聚合增强实体表示；(2) MoE元知识学习器动态选择专家生成关系元；(3) 任务定制投影机制实现局部适应。全局参数 $\bm{\Phi}$ 在外循环优化，局部参数 $\bm{\eta}$ 在内循环每个任务上独立优化。

关键设计¶

注意力邻居聚合：利用一阶邻居的关系和实体信息增强目标实体表示

对实体 $e$ 的邻居元组 $(r_i, e'_i)$，先拼接并变换： $$\mathbf{c}'_i = \text{ReLU}(\mathbf{W} \mathbf{c}_i)$$

通过sigmoid门控选择信息性邻居： $$g_i = \sigma(\bm{\beta}^T \mathbf{c}'_i)$$

加权聚合后与实体自身嵌入相加： $$\mathbf{e} = \text{Aggregate}(\{g_i \cdot \mathbf{c}'_i\}_{i=1}^n) + \mathbf{e}$$

设计动机：KG中实体的含义高度依赖其关系上下文，邻居聚合可以提供更丰富的实体表示。

MoE元知识学习：通过全局共享的稀疏MoE学习可组合的关系原型

对每个支持三元组，门控网络计算每个专家的相关性分数： $$s_{i,j} = \text{softmax}(\text{Gate}(\mathbf{h}_i, \mathbf{t}_i; \bm{\theta}_g))$$

选择Top-N个专家加权组合生成关系表示： $$\mathbf{r}_i = \frac{1}{N} \sum_{j=1}^{M} g_{i,j} f_j(\mathbf{h}_i, \mathbf{t}_i; \bm{\theta}_j)$$

最终关系元为所有支持三元组关系表示的均值： $$\mathbf{R}_{\mathcal{T}_r} = \frac{1}{K} \sum_{i=1}^{K} \mathbf{r}_i$$

设计动机：不同关系可由相同"关系构建块"（专家）的不同组合表示，稀疏激活使专家专门化，类似关系自然选择相似的专家子集。

任务定制局部适应：通过可学习投影向量将嵌入投射到任务特定子空间

为每个任务维护三个投影向量 $\mathbf{p}_h, \mathbf{p}_r, \mathbf{p}_t$，利用关系元进行调制： $$\mathbf{h}'_i = \mathbf{h}_i + (\mathbf{p}_h^\top \mathbf{R}_{\mathcal{T}_r}) \cdot \mathbf{R}_{\mathcal{T}_r}$$ $$\mathbf{R}'_{\mathcal{T}_r} = \mathbf{R}_{\mathcal{T}_r} + (\mathbf{p}_r^\top \mathbf{R}_{\mathcal{T}_r}) \cdot \mathbf{R}_{\mathcal{T}_r}$$ $$\mathbf{t}'_i = \mathbf{t}_i + (\mathbf{p}_t^\top \mathbf{R}_{\mathcal{T}_r}) \cdot \mathbf{R}_{\mathcal{T}_r}$$

设计动机：受TransD启发，每个任务的关系约束不同，投影向量以极低参数量实现嵌入空间的任务特定偏移，避免过参数化。

损失函数 / 训练策略¶

评分函数采用 $\ell_2$ 距离：$\text{score}(h_i, t_i) = \|\mathbf{h}'_i + \mathbf{R}'_{\mathcal{T}_r} - \mathbf{t}'_i\|_2$

内循环（支持集上的适应）: margin-based损失更新 $\bm{\eta}$ 和 $\mathbf{R}_{\mathcal{T}_r}$： $$\mathcal{L}(\mathcal{S}_r) = \sum_{(h_i,r,t_i) \in \mathcal{S}_r} \max\{0, \text{score}(h_i, t_i) + \gamma - \text{score}(h_i, t'_i)\}$$

外循环（查询集上的元更新）：查询损失反向传播更新全局参数 $\bm{\Phi}$。

实验关键数据¶

主实验 (Nell-One)¶

方法	1-shot MRR	1-shot Hits@1	5-shot MRR	5-shot Hits@1
MetaR-P	0.164	0.093	0.209	0.141
GANA	0.236	0.173	0.245	0.166
HiRe	0.288	0.184	0.306	0.207
MoEMeta	0.322	0.228	0.339	0.236
提升	+11.8%	+23.9%	+10.8%	+14.0%

FB15K-One (3-shot)¶

方法	MRR	Hits@1	Hits@10
RelAdapter	0.405	0.297	0.575
MoEMeta	0.423	0.302	0.651
提升	+4.4%	+0.3%	+13.2%

消融实验 (Nell-One)¶

配置	1-shot MRR	5-shot MRR	说明
MoEMeta	0.322	0.339	完整模型
w/o N.A	0.311	0.328	去除邻居聚合
w/o MoE	0.291 (↓9.6%)	0.293 (↓13.6%)	用MLP替换MoE
w/o L.A	0.301	0.315	去除局部适应

关键发现¶

MoE模块是最关键组件——去除后MRR下降高达13.6%，证明跨任务共享模式学习的重要性
门控值可视化显示：相似关系（如家庭类关系）激活相似的专家子集，不同类关系激活不同专家
局部适应对N-1和N-N关系类型改善最显著，MRR分别提升8.1%和8.6%
超参数分析表明32个专家、选择Top-5最优

亮点与洞察¶

全局-局部解耦：MoE负责"学什么可泛化"，投影负责"怎么适应"，两者互补
关系原型概念：将关系视为基本模式的组合而非独立学习，更符合KG的语义结构
轻量适应：仅3个投影向量（标量级参数）即实现有效任务适应，避免少样本过拟合

局限与展望¶

仅预测尾实体 $(h, r, ?)$，未考虑头实体预测
TransE初始化的依赖可能限制对某些复杂关系模式的覆盖
专家网络结构较简单（两层MLP），更复杂的专家可能进一步提升
未探索跨数据集的迁移学习

评分¶

新颖性: ⭐⭐⭐⭐ — MoE作为元学习器用于关系原型学习是新颖组合
实验充分度: ⭐⭐⭐⭐⭐ — 三数据集+16个基线+消融+可视化+关系类型分析
写作质量: ⭐⭐⭐⭐ — 动机阐述清晰，方法设计有理有据
价值: ⭐⭐⭐⭐ — 少样本KG推理的实用性强，框架可迁移