Context-Robust Knowledge Editing for Language Models¶
会议: ACL 2025
arXiv: 2505.23026
代码: https://github.com/holi-lab/CoRE
领域: LLM NLP
关键词: Knowledge Editing, 上下文鲁棒性, MEMIT, 方差正则化, 注意力分析
一句话总结¶
发现现有知识编辑方法在前缀上下文存在时大幅失败(编辑成功率从 90.9% 降至 69.1%),提出 CHED 基准评估上下文鲁棒性,并设计 CoRE 方法通过多样化前缀上下文 + 跨前缀隐藏状态方差正则化来增强编辑的上下文鲁棒性,在保持模型通用能力的同时显著缩小有/无上下文的性能差距。
研究背景与动机¶
-
领域现状:知识编辑(Knowledge Editing)是高效修改 LLM 内部知识的方法,避免全量重训。代表方法如 MEMIT 直接修改 MLP 层权重,将键向量映射到新的值向量来实现知识更新。
-
现有痛点:(a) 现有评估(CounterFact, zsRE)只测试孤立的编辑 prompt(如"Tim Cook, who works for"),不加任何前缀上下文;(b) 实际使用中,对话历史或前文经常触发模型回忆原始知识,导致编辑失效;(c) 如 Figure 1 所示,当"iPhone"出现在前缀中时,注意力集中到该 token,模型回退到原始知识"Apple"。
-
核心矛盾:知识编辑修改的是 MLP 中的键-值关联,但前缀上下文通过注意力机制将语义相关 token 的信息注入到 subject token 的隐藏状态中,干扰了编辑后的键-值映射。
-
本文要解决什么? (a) 构建评估上下文鲁棒性的基准 CHED;(b) 提出增强上下文鲁棒性的编辑方法 CoRE。
-
切入角度:从 Wikidata 知识图谱中挖掘与编辑实体高度相关的"跳跃词"(hop words),用这些词构造自然的干扰性前缀上下文。
-
核心idea一句话:用编辑实体的关联词构造干扰前缀评估鲁棒性,用方差正则化让编辑对不同前缀保持稳定。
方法详解¶
整体框架¶
- CHED 基准构建:知识三元组 → Wikidata 提取 hop words → 选择高干扰词 → 生成前缀上下文句子
- CoRE 方法:多样化前缀上下文 + 跨前缀方差正则化 → 增强 MEMIT 编辑的鲁棒性
关键设计¶
- CHED 基准构建:
- 基于 CounterFact 的 21,919 个知识三元组 \((s, r, o) \to (s, r, o^*)\)
- 从 Wikidata 提取所有与 \(s\)、\(o\)、\(o^*\) 一跳连接的实体作为 hop words
- 词选择策略(Freq-Sim):先取语料中频率最低的 10 个,再选与主实体余弦相似度最高的 5 个
- 用 GPT-4o-mini 生成自然的前缀上下文句子(包含 hop word,≤20 词,与编辑 prompt 衔接自然)
- 6 类前缀:\(s\), \(o\), \(o^*\), \(s_{hop}\), \(o_{hop}\), \(o^*_{hop}\)
-
最终:21,782 个三元组 × 314,385 hop word 前缀 + 326,730 直接词前缀
-
CoRE 方法:
- 多样化前缀上下文(Figure 4-A):MEMIT 原始用 "The", "Therefore" 等泛化前缀,CoRE 改用 \(s\)、\(o\)、\(o^*\) 的组合(如 "\(s\) + \(o\)")作为前缀
- 动机:这些词与原始/编辑知识天然高度相关,比泛化前缀产生更大的值向量方差
- 跨前缀方差正则化(Figure 4-B):在优化编辑值向量 \(\mathbf{v}^*\) 时,增加正则项最小化不同前缀下隐藏状态的方差
- 目标函数:\(\mathbf{v}^* = \arg\min_\mathbf{v} \frac{1}{N}\sum_j [-\log \mathbb{P}[o^* | z_j]] + D_{KL}(\mathbf{v}) + \lambda_{var} \cdot \text{Var}(\mathbf{v})\)
- 设计动机:方差大说明不同上下文导致不同编辑行为,正则化确保只应用必要的参数修改
实验关键数据¶
主实验:前缀上下文对编辑成功率的影响¶
| 方法 | 无前缀 | \(s\) | \(o\) | \(o^*\) | \(s_{hop}\) | \(o_{hop}\) | \(o^*_{hop}\) |
|---|---|---|---|---|---|---|---|
| MEMIT | 90.9% | 84.8% | 82.1% | 87.8% | 83.1% | 69.1% | 78.1% |
| FT-W | 82.6% | 74.2% | 62.5% | 70.5% | 72.8% | 58.3% | 66.7% |
| PMET | 88.7% | 83.2% | 79.8% | 85.9% | 81.5% | 67.2% | 76.3% |
- \(o_{hop}\)(原始对象的关联词)干扰最大:MEMIT 从 90.9% 降至 69.1%(-21.8%)
- Freq-Sim 选词策略选出的 hop words 干扰性最强
CoRE 改善效果¶
| 方法 | 无前缀 | \(o_{hop}\) (最难) | 平均 |
|---|---|---|---|
| MEMIT | 90.9% | 69.1% | 82.5% |
| CoRE (Ours) | 90.2% | 79.8% | 87.3% |
| CoRE 提升 | -0.7% | +10.7% | +4.8% |
- CoRE 在最难场景(\(o_{hop}\))提升 10.7%,无前缀场景几乎不损失
- Fluency 和通用能力(MMLU 等)无明显下降
消融实验¶
- 前缀类型:用户发言 vs 助手发言作为前缀,用户发言干扰更大(模型更信任用户输入)
- 方差正则化权重:\(\lambda_{var}\) 过大导致编辑不足,过小无法抑制方差,最优在 0.1-1.0
- 注意力分析:前缀中与原始知识相关的 token 获得异常高的注意力分数,CoRE 降低了这种注意力偏移
关键发现¶
- 前缀上下文是知识编辑的重大盲区——所有现有方法在有前缀时显著退化
- 与原始对象 \(o\) 相关的前缀比与 subject \(s\) 相关的干扰更大
- 方差正则化是简单但有效的上下文鲁棒性增强手段
亮点与洞察¶
- 问题重要性:首次系统揭示前缀上下文对知识编辑的灾难性影响,填补了评估盲区
- 基准设计精巧:Freq-Sim 策略选出的 hop words 既自然又有强干扰性,CHED 可作为通用评估工具
- 方法简洁有效:CoRE 仅在 MEMIT 基础上增加前缀多样化和方差正则化,无额外模型或复杂流程
局限性¶
- CoRE 基于 locate-then-edit 范式(MEMIT),未验证对 weight-preserved 方法(如 SERAC)的适用性
- CHED 的前缀上下文由 GPT-4o-mini 生成,连贯性评分中等(3.4/5),存在不自然的情况
- 评估在 CounterFact 基础上构建,局限于事实性三元组编辑,不覆盖更复杂的知识结构
- 方差正则化假设不同前缀下的隐藏状态应该相似,但某些上下文确实应该影响输出——需要更细粒度的控制
相关工作与启发¶
- 与 MQuAKE (Zhong et al., 2023) 的区别:MQuAKE 评估多跳问题的连锁编辑,CHED 评估单跳编辑的上下文鲁棒性——两者互补
- 与 CounterFact+ 的区别:后者只添加同关系同对象的样本作为前缀,CHED 用知识图谱挖掘更有针对性的干扰词
- 启发:知识编辑的评估应该从"一问一答"扩展到"多轮对话"——CHED 是第一步,但还需要更长的对话链评估
评分¶
- 新颖性: ⭐⭐⭐⭐ (问题新颖、基准有价值)
- 理论深度: ⭐⭐⭐ (注意力分析有洞察但理论不深)
- 实验充分性: ⭐⭐⭐⭐ (多方法比较、消融完整)
- 实用价值: ⭐⭐⭐⭐⭐ (CHED 基准 + CoRE 方法均可直接使用)
- 总体推荐: ⭐⭐⭐⭐ (知识编辑评估方向的重要推进)