BMIKE-53: Investigating Cross-Lingual Knowledge Editing with In-Context Learning¶

会议: ACL 2025
arXiv: 2406.17764
代码: https://github.com/ercong21/MultiKnow/
领域: LLM / 知识编辑
关键词: 跨语言知识编辑, 上下文学习, 多语言基准, 53语言, IKE

一句话总结¶

提出 BMIKE-53，覆盖 53 种语言的跨语言上下文知识编辑 (IKE) 基准，统一了 zsRE/CounterFact/WikiFactDiff 三个知识编辑数据集，系统评估发现模型规模和示例对齐对跨语言 IKE 效果至关重要，文字系统类型是影响跨语言性能差异的关键因素。

领域现状：LLM 中的知识会过时需要更新。知识编辑 (KE) 通过修改特定知识而不重训模型来解决这一问题。基于梯度的方法计算昂贵，基于 ICL 的无梯度方法 (IKE) 更高效。
现有痛点：现有 KE 研究主要聚焦单语（英语），跨语言 KE（在一种语言编辑后要泛化到其他语言）几乎未被探索。已有跨语言 KE 工作大多用梯度方法，无梯度跨语言 KE 研究空白。
核心矛盾：跨语言 KE 更难——编辑的知识需要在语义等价但语言不同的查询上一致生效，同时不影响无关知识。缺乏系统基准和评估。
本文要解决什么？ 构建首个大规模多语言 KE 基准，系统评估无梯度跨语言 IKE。
切入角度：统一三个 KE 数据集格式 + GPT-4o 翻译到 52 种目标语言 + 零/单/多 shot IKE 评估。
核心 idea 一句话：53 语言 × 3 数据集 × 4 查询类型的统一基准，揭示文字系统（非语族）是跨语言 KE 的关键影响因素。

三个英语 KE 数据集 → 统一格式 → GPT-4o 翻译至 52 语言 → 质量控制 → zero/1/8-shot IKE 评估

模型	设置	zsRE rel	zsRE port	CF rel	CF loc	WFD rel	WFD port
Llama3.2-3B	zero	50.2	5.4	43.5	7.5	58.3	3.2
Llama3.2-3B	8-metric	70.9	23.0	67.6	31.6	67.8	10.7
Llama3.1-8B	zero	65.5	10.1	63.0	18.7	67.8	4.2
Llama3.1-8B	8-metric	74.9	32.9	73.9	47.6	72.0	14.6