mRAKL: Multilingual Retrieval-Augmented Knowledge Graph Construction for Low-Resourced Languages¶

会议: ACL 2025
arXiv: 2507.16011
代码: 即将发布
领域: 图学习
关键词: 多语言知识图谱构建, 检索增强生成, 低资源语言, 跨语言迁移, 知识图谱补全

一句话总结¶

将多语言知识图谱构建（mKGC）重新定义为 QA 任务，提出基于 RAG 的 mRAKL 系统，利用非结构化单语数据作为检索源来克服低资源语言中结构化数据匮乏的困难，在 Tigrinya 和 Amharic 两种低资源语言上显著超越已有方法。

领域现状: 知识图谱（KG）在问答、信息检索、语言模型增强等下游应用中至关重要，但大多数 KG 是不完整的，低资源语言中缺失信息更为严重。Wikidata 中仅 0.2% 的实体有 Amharic 标签。
现有痛点:
现有 mKGC 方法（如 KGT5）依赖大量结构化数据训练（如 52M 三元组），低资源语言根本不具备此条件
基于 KG 嵌入的跨语言方法假设封闭世界，无法利用开放域自然语言知识
预训练语言模型对低资源语言的参数化知识极度匮乏（GPT-4 在 Amharic 上 zero-shot H@1 仅 5.83%）
核心矛盾: 低资源语言缺乏结构化标注数据，但拥有相对更多的非结构化单语文本（如 Wikipedia 文章），如何利用这些非结构化数据来构建 KG。
本文要解决什么: 为 Tigrinya（3.5k 三元组）和 Amharic（34k 三元组）这样的极低资源语言构建和补全知识图谱。
切入角度: 将 KG 三元组转换为 QA 对（head + relation → question, tail → answer），用 RAG 方式从 Wikipedia 检索相关段落辅助生成。
核心idea一句话: 用 RAG + 跨语言 QA 将非结构化单语数据转化为 KG 补全能力，弥补低资源语言结构化数据的不足。

mRAKL 由两个核心组件构成： - Retriever: 从单语 Wikipedia 中检索与查询相关的句子作为上下文 - Generator: 基于检索到的上下文和模板化问题，生成尾实体作为答案

KG 到 QA 的转换:
为 120 个关系手动准备四种语言的问题模板
对每个三元组 \((h, r, t)\)，将 head entity 填入关系模板得到问题，tail entity 作为答案
例：三元组 (Surafel Dagnachew, place of birth, Ethiopia) → 问题"What is Surafel Dagnachew's place of birth?"
跨语言实体对齐:
在输入序列中使用语言标记 [C-LAN], [Q-LAN], [A-LAN] 指示上下文、问题和答案的语言
支持跨语言链接预测：给定一种语言的 head + relation，预测另一种语言的 tail
格式：[C-LANt]C | [Q-LANt]Q? [A-LANt']（上下文/问题语言 t，答案语言 t'可以不同）
检索器设计:
BM25: 对四种语言分别建立单语 Wikipedia 索引
LaBSE: 多语言句嵌入模型，用对比损失微调（LaBSE 不包含 Tigrinya）
(Im)perfect Retriever: 上界实验——直接在 head entity 的 Wikipedia 文章中搜索包含 tail entity 的句子
生成器训练:
基础模型：AfriTeVa-base（包含 Tigrinya 和 Amharic 的预训练 T5 模型）
用 LoRA 微调，交叉熵损失，beam search 解码，beam size=10
四种训练设置：No-Context / Monolingual Self-Context / Multilingual Self-Context / Cross-Lingual Context

方法	Tigrinya H@1	Tigrinya H@10	Amharic H@1	Amharic H@10
KGT5-No-Context	6.91	28.57	32.58	52.57
KGT5-Description	5.80	23.44	32.91	43.32
KGT5-One-Hop	4.46	24.33	28.83	48.17
mRAKL No-Context	5.13	26.11	29.15	54.81
mRAKL Self-Context	11.83	34.59	41.37	61.87

目标语言	Amharic 上下文	Arabic 上下文	English 上下文	平均
Tigrinya	15.75	12.30	14.73	14.15
Amharic	38.52	33.58	38.22	35.27

RAG 显著提升低资源语言 KGC: mRAKL Self-Context 相比 KGT5 No-Context，Tigrinya H@1 提升 4.92 个百分点，Amharic 提升 8.79 个百分点
结构化上下文对低资源语言不适用: KGT5-Description 和 KGT5-One-Hop 反而降低性能，因为低资源语言中实体描述和one-hop连接本身就缺失
跨语言迁移有效: BM25 在所有设置中优于 LaBSE 检索器，且优于无上下文设置
同族语言更有利: Amharic 作为 Tigrinya 的上下文语言时 H@1 最高（15.75），35.88% 的尾实体在两种语言中拼写相同
多语言训练提升小语种: Multilingual Self-Context 对 Tigrinya 提升 4.69 个百分点（从 11.83 到 15.18）
文化/地域相关性: Arabic 上下文在中东/亚洲相关查询上表现更好，English 在西方话题上更优