WikiBigEdit: Understanding the Limits of Lifelong Knowledge Editing in LLMs¶

会议: ICML 2025
arXiv: 2503.05683
代码: https://github.com/ExplainableML/WikiBigEdit
领域: LLM / NLP / 知识编辑
关键词: 知识编辑, 终身学习, benchmark, Wikidata, 检索增强

一句话总结¶

本文提出 WikiBigEdit，一个包含 50 万+ 真实 Wikidata 知识编辑的大规模终身知识编辑基准，揭示了现有知识编辑方法在实际规模下的严重局限性——检索增强和持续微调+模型合并等通用方法反而表现更优。

研究背景与动机¶

领域现状：大语言模型 (LLM) 存在知识截止日期问题，部署后无法自动更新事实知识。知识编辑 (Knowledge Editing) 作为一种轻量替代方案应运而生，通过直接修改模型参数或外挂模块来注入新知识，避免昂贵的全量重训练。代表性方法包括 ROME、MEMIT、GRACE 等，它们在小规模基准上展示了三个关键能力：泛化性（不仅仅记住 QA 对）、局部性（不破坏已有知识）和保留性（记住所有已编辑的知识）。

现有痛点：现有知识编辑基准存在三大问题——规模太小（CounterFact 仅 20K、ZsRE 仅 1K、SelfCheckGPT 仅 600 条）、数据合成（不反映真实世界的知识变化模式）、时间过时（数据生成时间早于现代 LLM 的知识截止日期，导致模型可能已经"知道"这些事实）。即便是使用 Wikidata 的近期工作（Jang et al., 2022; Khodja et al., 2024），规模也只在 2 万左右，无法反映实际部署所需的知识更新量级。

核心矛盾：现代 LLM 训练在万亿级 token 上（如 Llama-3 使用 15T token），但知识编辑研究却只在千级别的合成数据上评估——这种评估规模与实际需求之间存在数量级的鸿沟，导致我们无法真正理解知识编辑方法在实际场景中的表现。

本文目标 (a) 构建一个真正大规模、真实世界的知识编辑基准；(b) 基准需要能持续自动扩展，保持时效性；(c) 在该基准上系统评估知识编辑方法与通用修改方法的实际能力差异。

切入角度：利用 Wikidata 知识图谱的周期性变更记录，自动提取真实的事实更新，构建跨时间步的终身编辑序列。涵盖 2024 年 2-7 月共 8 个时间区间，模拟 LLM 两个版本之间的真实时间跨度。

核心 idea：用 50 万级真实 Wikidata 编辑构建终身基准 + 全方位评估体系，证明知识编辑方法在实际规模下失效，而 RAG 和持续微调更具可行性。

方法详解¶

整体框架¶

WikiBigEdit 的核心不是提出新的知识编辑算法，而是构建了一个评测体系。整体分三个层次：

数据构建层：从 Wikidata 知识图谱的版本差异中自动提取事实变更 → 转化为 QA 对 → 按时间区间组织
评估协议层：定义多维度评测指标（编辑成功率、泛化性、局部性、多跳推理、复杂泛化）
方法对比层：系统比较知识编辑方法 vs. 检索增强 vs. 持续微调

输入为 Wikidata 两个时间快照之间的三元组变更 \((s, r, o) \to (s, r, o')\)，输出为标准化的 QA 对集合及对应的评测流水线。

关键设计¶

自动化数据提取流水线:
- 功能：从 Wikidata 知识图谱的定期 dump 中自动识别事实变更并转化为高质量 QA 对
- 核心思路：对比两个时间快照的三元组差异，识别出新增、修改和删除的事实关系 \((s, r, o)\)，然后通过模板化方法将其转为自然语言问答对。覆盖 8 个时间区间（2024 年 2-7 月），每个区间包含该时段内的所有知识变更
- 设计动机：确保基准可以持续自动扩展，而不是一次性静态数据集。随着 Wikidata 不断更新，流水线可以不断生成新的评测数据，解决了旧基准"过时"的问题。这种 future-proof 的设计使基准始终保持在 LLM 知识截止日期之后
多维度评估体系:
- 功能：从五个维度全面评估知识编辑的效果
- 核心思路：
  - 编辑成功率 (Edit Success)：编辑后模型能否正确回答目标问题
  - 泛化性 (Generalization)：编辑后能否泛化到同一事实的不同提问方式
  - 局部性 (Locality)：编辑是否影响了与编辑无关的知识
  - 多跳推理 (Multi-hop)：编辑后能否进行跨编辑的推理，如 A→B + B→C 能否推出 A→C
  - 复杂泛化 (Complex Generalization)：超越简单改写的深层泛化测试
- 设计动机：以往基准通常只测编辑成功率和简单泛化，忽略了多跳推理和复杂泛化这些在实际场景中至关重要的能力。完整的评测体系才能揭示知识编辑方法的真实水平
对比方法选择策略:
- 功能：将专用知识编辑方法与通用模型修改方法放在统一框架下比较
- 核心思路：评测三类方法——(a) 知识编辑方法（如 ROME、MEMIT、GRACE 等直接修改模型参数的方法）；(b) 检索增强生成 (RAG)（将编辑存储在外部知识库中，推理时检索相关事实）；(c) 持续微调 + 模型合并（在新数据上微调后与原模型合并，平衡新旧知识）
- 设计动机：以往知识编辑研究只在"知识编辑方法"的小圈子内比较，忽略了 RAG 和持续微调等实际部署中更常用的方案。在统一基准上的对比才能揭示知识编辑是否真的是最优解

数据规模与构成¶

WikiBigEdit 初始版本的关键数据规格： - 总量：50 万+ 高质量 QA 对，约 700 万 token - 时间跨度：2024 年 2 月至 7 月，共 8 个时间区间 - 数据来源：Wikidata 知识图谱的真实变更记录 - 对比规模：比 CounterFact (20K) 大 25 倍，比 ZsRE (1K) 大 500 倍

实验关键数据¶

主实验：各方法在 WikiBigEdit 上的表现¶

方法类别	代表方法	编辑成功率	泛化性	局部性	多跳推理	整体评价
知识编辑	ROME	小规模高，大规模急剧下降	有限	随编辑量下降	差	无法扩展
知识编辑	MEMIT	比 ROME 稍好	有限	中等	差	难以扩展
知识编辑	GRACE	中等	有限	中等	差	效率瓶颈
检索增强	RAG	高且稳定	依赖检索质量	天然保持	中等	扩展性最佳
持续微调	FT + 模型合并	高	较好	需要合并策略	较好	综合性能强

知识编辑方法的扩展性分析¶

编辑数量	ROME 成功率	MEMIT 成功率	RAG 成功率	FT+Merge 成功率
1K	高	高	高	高
10K	明显下降	中等下降	保持高	保持高
50K	严重退化	显著下降	保持高	保持高
100K+	几乎失效	严重退化	稳定	稳定

注：由于缓存仅包含摘要和引言部分，上述表格基于论文描述的核心发现进行归纳，具体数值请参考原文。

关键发现¶

知识编辑方法在大规模下全面失效：所有测试的知识编辑方法在编辑量从千级增长到十万级时，性能出现断崖式下降。这表明现有方法根本无法满足实际部署需求
RAG 具有最佳扩展性：检索增强方法的性能不随编辑量增长而下降，因为新知识存储在外部，不修改模型参数，天然避免了知识冲突和灾难性遗忘
持续微调 + 模型合并是有力竞争者：通过在新数据上微调后与原模型合并，可以较好地平衡新旧知识，且在多跳推理上表现优于知识编辑方法
多跳推理是所有方法的弱项：即便编辑成功，模型也很难将多个编辑后的事实串联起来进行推理，暴露了当前方法在深层知识整合上的不足

亮点与洞察¶

Future-proof 基准设计：自动化流水线使基准能持续扩展，解决了以往静态基准"过时"的根本问题。这种设计理念值得所有 benchmark 类工作借鉴——数据集应该是"活"的而非"死"的
打破知识编辑的"小规模幻觉"：在 1K 条编辑上表现优异的方法，在 50K+ 时可能完全失效。这个发现对整个知识编辑领域具有警示意义——小规模基准上的成功不代表实际可用
统一评测框架的价值：将知识编辑方法与 RAG、持续微调放在同一框架下比较，而非只在细分方向内比较，这种跨范式的对比思路可以迁移到其他研究方向。例如，可以用类似方式比较 prompt engineering vs. fine-tuning vs. in-context learning

局限与展望¶

缓存内容有限：本缓存仅包含摘要和引言，缺少完整的方法描述和实验数据细节，部分实验分析基于推断
Wikidata 偏差：基准完全依赖 Wikidata 的编辑模式，可能不能代表所有类型的知识更新（如科学发现、技术突破等非结构化知识变更）
只覆盖事实型知识：WikiBigEdit 聚焦于三元组形式的事实知识 \((s, r, o)\)，对程序性知识、推理能力等维度的编辑未涉及
评测 LLM 范围可能有限：论文主要在特定规模的模型上实验，超大规模模型（如 GPT-4 级别）的表现未知
时间跨度仅 5 个月：虽然已远超以往基准，但 5 个月的跨度可能仍不足以模拟 LLM 在真实部署中面临的长期知识漂移
改进思路：可以将 WikiBigEdit 的评测框架扩展到多语言场景、非事实型知识编辑、以及结合知识图谱的结构化推理能力评测

评分¶

新颖性: ⭐⭐⭐⭐ 大规模真实 benchmark + 自动扩展流水线是重要贡献，但 benchmark 类工作的方法创新有限
实验充分度: ⭐⭐⭐⭐⭐ 多方法、多维度、跨范式的系统评测非常全面，50 万级规模令人信服
写作质量: ⭐⭐⭐⭐ 论文结构清晰，动机表达有力，贡献点明确
价值: ⭐⭐⭐⭐⭐ 对知识编辑领域具有重要警示意义，可能改变该方向的研究范式