Context-Robust Knowledge Editing for Language Models¶

会议: ACL 2025
arXiv: 2505.23026
代码: https://github.com/holi-lab/CoRE
领域: LLM NLP
关键词: Knowledge Editing, 上下文鲁棒性, MEMIT, 方差正则化, 注意力分析

一句话总结¶

发现现有知识编辑方法在前缀上下文存在时大幅失败（编辑成功率从 90.9% 降至 69.1%），提出 CHED 基准评估上下文鲁棒性，并设计 CoRE 方法通过多样化前缀上下文 + 跨前缀隐藏状态方差正则化来增强编辑的上下文鲁棒性，在保持模型通用能力的同时显著缩小有/无上下文的性能差距。

领域现状：知识编辑（Knowledge Editing）是高效修改 LLM 内部知识的方法，避免全量重训。代表方法如 MEMIT 直接修改 MLP 层权重，将键向量映射到新的值向量来实现知识更新。
现有痛点：(a) 现有评估（CounterFact, zsRE）只测试孤立的编辑 prompt（如"Tim Cook, who works for"），不加任何前缀上下文；(b) 实际使用中，对话历史或前文经常触发模型回忆原始知识，导致编辑失效；(c) 如 Figure 1 所示，当"iPhone"出现在前缀中时，注意力集中到该 token，模型回退到原始知识"Apple"。
核心矛盾：知识编辑修改的是 MLP 中的键-值关联，但前缀上下文通过注意力机制将语义相关 token 的信息注入到 subject token 的隐藏状态中，干扰了编辑后的键-值映射。
本文要解决什么？ (a) 构建评估上下文鲁棒性的基准 CHED；(b) 提出增强上下文鲁棒性的编辑方法 CoRE。
切入角度：从 Wikidata 知识图谱中挖掘与编辑实体高度相关的"跳跃词"（hop words），用这些词构造自然的干扰性前缀上下文。
核心idea一句话：用编辑实体的关联词构造干扰前缀评估鲁棒性，用方差正则化让编辑对不同前缀保持稳定。

CHED 基准构建:
基于 CounterFact 的 21,919 个知识三元组 \((s, r, o) \to (s, r, o^*)\)
从 Wikidata 提取所有与 \(s\)、\(o\)、\(o^*\) 一跳连接的实体作为 hop words
词选择策略（Freq-Sim）：先取语料中频率最低的 10 个，再选与主实体余弦相似度最高的 5 个
用 GPT-4o-mini 生成自然的前缀上下文句子（包含 hop word，≤20 词，与编辑 prompt 衔接自然）
6 类前缀：\(s\), \(o\), \(o^*\), \(s_{hop}\), \(o_{hop}\), \(o^*_{hop}\)
最终：21,782 个三元组 × 314,385 hop word 前缀 + 326,730 直接词前缀
CoRE 方法:
多样化前缀上下文（Figure 4-A）：MEMIT 原始用 "The", "Therefore" 等泛化前缀，CoRE 改用 \(s\)、\(o\)、\(o^*\) 的组合（如 "\(s\) + \(o\)"）作为前缀
动机：这些词与原始/编辑知识天然高度相关，比泛化前缀产生更大的值向量方差
跨前缀方差正则化（Figure 4-B）：在优化编辑值向量 \(\mathbf{v}^*\) 时，增加正则项最小化不同前缀下隐藏状态的方差
目标函数：\(\mathbf{v}^* = \arg\min_\mathbf{v} \frac{1}{N}\sum_j [-\log \mathbb{P}[o^* | z_j]] + D_{KL}(\mathbf{v}) + \lambda_{var} \cdot \text{Var}(\mathbf{v})\)
设计动机：方差大说明不同上下文导致不同编辑行为，正则化确保只应用必要的参数修改

方法	无前缀	\(s\)	\(o\)	\(o^*\)	\(s_{hop}\)	\(o_{hop}\)	\(o^*_{hop}\)
MEMIT	90.9%	84.8%	82.1%	87.8%	83.1%	69.1%	78.1%
FT-W	82.6%	74.2%	62.5%	70.5%	72.8%	58.3%	66.7%
PMET	88.7%	83.2%	79.8%	85.9%	81.5%	67.2%	76.3%

方法	无前缀	\(o_{hop}\) (最难)	平均
MEMIT	90.9%	69.1%	82.5%
CoRE (Ours)	90.2%	79.8%	87.3%
CoRE 提升	-0.7%	+10.7%	+4.8%