跳转至

Context-Robust Knowledge Editing for Language Models

会议: ACL 2025
arXiv: 2505.23026
代码: https://github.com/holi-lab/CoRE
领域: LLM NLP
关键词: Knowledge Editing, 上下文鲁棒性, MEMIT, 方差正则化, 注意力分析

一句话总结

发现现有知识编辑方法在前缀上下文存在时大幅失败(编辑成功率从 90.9% 降至 69.1%),提出 CHED 基准评估上下文鲁棒性,并设计 CoRE 方法通过多样化前缀上下文 + 跨前缀隐藏状态方差正则化来增强编辑的上下文鲁棒性,在保持模型通用能力的同时显著缩小有/无上下文的性能差距。

研究背景与动机

  1. 领域现状:知识编辑(Knowledge Editing)是高效修改 LLM 内部知识的方法,避免全量重训。代表方法如 MEMIT 直接修改 MLP 层权重,将键向量映射到新的值向量来实现知识更新。

  2. 现有痛点:(a) 现有评估(CounterFact, zsRE)只测试孤立的编辑 prompt(如"Tim Cook, who works for"),不加任何前缀上下文;(b) 实际使用中,对话历史或前文经常触发模型回忆原始知识,导致编辑失效;(c) 如 Figure 1 所示,当"iPhone"出现在前缀中时,注意力集中到该 token,模型回退到原始知识"Apple"。

  3. 核心矛盾:知识编辑修改的是 MLP 中的键-值关联,但前缀上下文通过注意力机制将语义相关 token 的信息注入到 subject token 的隐藏状态中,干扰了编辑后的键-值映射。

  4. 本文要解决什么? (a) 构建评估上下文鲁棒性的基准 CHED;(b) 提出增强上下文鲁棒性的编辑方法 CoRE。

  5. 切入角度:从 Wikidata 知识图谱中挖掘与编辑实体高度相关的"跳跃词"(hop words),用这些词构造自然的干扰性前缀上下文。

  6. 核心idea一句话:用编辑实体的关联词构造干扰前缀评估鲁棒性,用方差正则化让编辑对不同前缀保持稳定。

方法详解

整体框架

  1. CHED 基准构建:知识三元组 → Wikidata 提取 hop words → 选择高干扰词 → 生成前缀上下文句子
  2. CoRE 方法:多样化前缀上下文 + 跨前缀方差正则化 → 增强 MEMIT 编辑的鲁棒性

关键设计

  1. CHED 基准构建:
  2. 基于 CounterFact 的 21,919 个知识三元组 \((s, r, o) \to (s, r, o^*)\)
  3. 从 Wikidata 提取所有与 \(s\)\(o\)\(o^*\) 一跳连接的实体作为 hop words
  4. 词选择策略(Freq-Sim):先取语料中频率最低的 10 个,再选与主实体余弦相似度最高的 5 个
  5. 用 GPT-4o-mini 生成自然的前缀上下文句子(包含 hop word,≤20 词,与编辑 prompt 衔接自然)
  6. 6 类前缀:\(s\), \(o\), \(o^*\), \(s_{hop}\), \(o_{hop}\), \(o^*_{hop}\)
  7. 最终:21,782 个三元组 × 314,385 hop word 前缀 + 326,730 直接词前缀

  8. CoRE 方法:

  9. 多样化前缀上下文(Figure 4-A):MEMIT 原始用 "The", "Therefore" 等泛化前缀,CoRE 改用 \(s\)\(o\)\(o^*\) 的组合(如 "\(s\) + \(o\)")作为前缀
  10. 动机:这些词与原始/编辑知识天然高度相关,比泛化前缀产生更大的值向量方差
  11. 跨前缀方差正则化(Figure 4-B):在优化编辑值向量 \(\mathbf{v}^*\) 时,增加正则项最小化不同前缀下隐藏状态的方差
  12. 目标函数:\(\mathbf{v}^* = \arg\min_\mathbf{v} \frac{1}{N}\sum_j [-\log \mathbb{P}[o^* | z_j]] + D_{KL}(\mathbf{v}) + \lambda_{var} \cdot \text{Var}(\mathbf{v})\)
  13. 设计动机:方差大说明不同上下文导致不同编辑行为,正则化确保只应用必要的参数修改

实验关键数据

主实验:前缀上下文对编辑成功率的影响

方法 无前缀 \(s\) \(o\) \(o^*\) \(s_{hop}\) \(o_{hop}\) \(o^*_{hop}\)
MEMIT 90.9% 84.8% 82.1% 87.8% 83.1% 69.1% 78.1%
FT-W 82.6% 74.2% 62.5% 70.5% 72.8% 58.3% 66.7%
PMET 88.7% 83.2% 79.8% 85.9% 81.5% 67.2% 76.3%
  • \(o_{hop}\)(原始对象的关联词)干扰最大:MEMIT 从 90.9% 降至 69.1%(-21.8%)
  • Freq-Sim 选词策略选出的 hop words 干扰性最强

CoRE 改善效果

方法 无前缀 \(o_{hop}\) (最难) 平均
MEMIT 90.9% 69.1% 82.5%
CoRE (Ours) 90.2% 79.8% 87.3%
CoRE 提升 -0.7% +10.7% +4.8%
  • CoRE 在最难场景(\(o_{hop}\))提升 10.7%,无前缀场景几乎不损失
  • Fluency 和通用能力(MMLU 等)无明显下降

消融实验

  • 前缀类型:用户发言 vs 助手发言作为前缀,用户发言干扰更大(模型更信任用户输入)
  • 方差正则化权重\(\lambda_{var}\) 过大导致编辑不足,过小无法抑制方差,最优在 0.1-1.0
  • 注意力分析:前缀中与原始知识相关的 token 获得异常高的注意力分数,CoRE 降低了这种注意力偏移

关键发现

  • 前缀上下文是知识编辑的重大盲区——所有现有方法在有前缀时显著退化
  • 与原始对象 \(o\) 相关的前缀比与 subject \(s\) 相关的干扰更大
  • 方差正则化是简单但有效的上下文鲁棒性增强手段

亮点与洞察

  • 问题重要性:首次系统揭示前缀上下文对知识编辑的灾难性影响,填补了评估盲区
  • 基准设计精巧:Freq-Sim 策略选出的 hop words 既自然又有强干扰性,CHED 可作为通用评估工具
  • 方法简洁有效:CoRE 仅在 MEMIT 基础上增加前缀多样化和方差正则化,无额外模型或复杂流程

局限性

  1. CoRE 基于 locate-then-edit 范式(MEMIT),未验证对 weight-preserved 方法(如 SERAC)的适用性
  2. CHED 的前缀上下文由 GPT-4o-mini 生成,连贯性评分中等(3.4/5),存在不自然的情况
  3. 评估在 CounterFact 基础上构建,局限于事实性三元组编辑,不覆盖更复杂的知识结构
  4. 方差正则化假设不同前缀下的隐藏状态应该相似,但某些上下文确实应该影响输出——需要更细粒度的控制

相关工作与启发

  • 与 MQuAKE (Zhong et al., 2023) 的区别:MQuAKE 评估多跳问题的连锁编辑,CHED 评估单跳编辑的上下文鲁棒性——两者互补
  • 与 CounterFact+ 的区别:后者只添加同关系同对象的样本作为前缀,CHED 用知识图谱挖掘更有针对性的干扰词
  • 启发:知识编辑的评估应该从"一问一答"扩展到"多轮对话"——CHED 是第一步,但还需要更长的对话链评估

评分

  • 新颖性: ⭐⭐⭐⭐ (问题新颖、基准有价值)
  • 理论深度: ⭐⭐⭐ (注意力分析有洞察但理论不深)
  • 实验充分性: ⭐⭐⭐⭐ (多方法比较、消融完整)
  • 实用价值: ⭐⭐⭐⭐⭐ (CHED 基准 + CoRE 方法均可直接使用)
  • 总体推荐: ⭐⭐⭐⭐ (知识编辑评估方向的重要推进)