DocMEdit: Towards Document-Level Model Editing¶

会议: ACL 2025
arXiv: 2505.19572
代码: 有
领域: NLP / 知识编辑
关键词: 模型编辑, 文档级任务, 知识更新, LLM, 知识图谱

一句话总结¶

首次提出文档级模型编辑任务，构建包含 37,990 条数据、105,652 个编辑事实的 DocMEdit 基准，揭示现有编辑方法在长上下文、多事实并行编辑场景下的严重不足。

模型编辑旨在以最小代价纠正 LLM 中的错误或过时知识。现有数据集（ZsRE、CounterFact、MQuAKE）的核心问题在于：

输出粒度太小：仅要求模型输出短语或句子，与真实场景（生成传记、更新 Wikipedia 文档、长链推理）严重脱节

缺乏外推性：答案可直接从编辑事实推导，不需要模型结合已有知识

上下文长度不足：现有数据集平均目标长度仅 6-131 词

这导致现有编辑方法的实际可用性存疑。作者对比了现有基准：

基准	文档级	外推性	多编辑	局部性	平均目标长度
ZsRE	✗	✗	✗	✔	12.12
CounterFact	✗	✗	✗	✔	6.65
MQuAKE	✗	✗	✔	✗	10.94
DocMEdit	✔	✔	✔	✔	867.62

DocMEdit 的平均目标长度是现有最长基准的 6.6 倍。

DocMEdit 的构建分三步：文档变更计算、事实收集、知识图谱提取。

文档变更计算（Document Change Computation）：
- 收集 Wikipedia 两个时间戳（20231101 和 20241101）的 dump
- 提取每篇文档的 INTRODUCTION 部分，作为更新前后的 y 和 y'
- 过滤仅含样式修改的更新，保留包含至少一个新实体的有意义更新
- 设计动机：Wikipedia 大部分更新是样式而非事实变更
事实收集（Facts Collection）：
- 对每个句子，若其中提及的实体是文档更新中新引入的，则该句子被视为支撑该实体更新的事实
- 事实直接从非结构化 Wikipedia 数据中提取（非三元组），更贴近真实编辑场景
- 每条数据平均包含 2.78 个编辑事实
知识图谱提取（Knowledge Graph Extraction）：
- 从源文档、目标文档和支撑事实中分别提取知识图谱
- 约束三元组中的关系必须是 Wikidata 中已有的关系
- 提取了 568,652 个实体、4,804 种关系、1,411,057 个三元组
- 方便 RAG 类方法（IKE、SKEME）进行实验
评估指标设计：
- 准确性：Document-ROUGE (DR)、Document-Entity (DE)、Edit-ROUGE (ER)、Edit-Entity (EE)
- 局部性：ROUGE Side Effect (RSE)、Entity Side Effect (ESE) — 衡量未编辑部分的保留情况
- 质量：人工评估语义连贯性 (SC)，3 级打分
- 效率：时间消耗 (Ti)、内存需求 (Me)

编辑模型 M 为 M'，使得 M'(x) = y'，其中 y' 包含原始句子 + 由编辑事实支撑的新句子，且与事实无关的句子保持不变。

上下文长度	短(0-512)	中(512-1024)	长(1024+)
基础模型	可处理部分	困难	基本失败
FT/MEMIT	降低性能	失败	完全失败
IKE/SKEME	进一步提升	有效	几乎失败