REP: Keys to Robust Edits — From Theoretical Insights to Practical Advances¶

会议: ACL 2025
arXiv: 2410.09338
代码: GitHub
领域: NLP理解
关键词: 知识编辑, 鲁棒性, 键值记忆, 对比学习, locate-and-edit

一句话总结¶

揭示locate-and-edit知识编辑方法中语义键的根本缺陷——内部表示无法同时满足鲁棒性和特异性，提出REP模块通过对比学习解耦编辑键，在鲁棒性测试上提升最高66.4%。

领域现状: 知识编辑方法（ROME/MEMIT等）通过修改MLP层参数更新LLM中的事实知识，被视为理解知识存储机制的重要手段。
现有痛点: 现有方法在主语改述、长上下文、主语打乱等鲁棒性测试中频繁失败（如编辑"Slovenia属于Europe→Antarctica"在改述为"Republic of Slovenia"时崩溃）。
核心矛盾: 现有语义键（MLP中间表示）无法同时满足鲁棒性（context-invariant activation）和特异性（precise knowledge discrimination），理论分析给出形式化证明。
本文要解决什么: 从理论和实践两方面解决locate-and-edit方法的鲁棒性失败问题。
切入角度: 通过键值联想记忆的误差界分析建立形式化标准，提出解耦编辑键的即插即用方案。
核心idea一句话: 将编辑键从模型内部表示中解耦出来，通过对比学习动态调整键以平衡鲁棒性和特异性。

REP（Robust Edit Pathway）是一个即插即用适配器模块，在MLP的键提取路径上添加投影+门控机制，通过对比学习将同一实体的不同表面形式的键对齐到编辑目标键附近。

理论分析:
Lemma 4.6（鲁棒性要求）：语义等价的键 \(k_s\) 需满足 \(k_s^T C^{-1} k_* \geq \beta_{min}\)（whitened similarity下界）
Lemma 4.7（特异性要求）：无关键 \(k_o\) 需满足 \(|k_o^T C^{-1} k_*| \leq \beta_{max}\)（上界）
实验证明：改述和打乱后相似度降至随机水平，违反鲁棒性；无关实体间存在高相似度，违反特异性。
解耦键投影（Disentangled Key Projection）: 适配器结构 \(\hat{k} = f_{gate}(k) \circ f_{proj}(k) + k\)，投影模块对齐键，门控模块决定是否激活。对比学习目标聚合同主语键：\(\mathcal{L}_{agg} = -|(\hat{k_s}/||\hat{k_s}||_2)^T C^{-1} k_*|\)。
动态门控机制: token级门控选择性激活编辑，测试时使用阈值τ决定是否修改原始键。保持未编辑知识不受影响，确保编辑的局部性。

总损失 = 聚合损失（对齐同实体键）+ α × 一致性损失（保持目标键不漂移）。训练数据来自10种改述变体（GPT-4o-mini生成）和不同上下文前缀。

方法	编辑成功率	改述↑	打乱↑	长上下文↑	域外改述↑
ROME	100.0	61.0	13.0	89.8	62.6
ROME+REP	~100	高	+66.4%	高	高
MEMIT	99.3	73.3	30.0	92.3	73.4
MEMIT+REP	~99	提升	大幅提升	提升	提升

ROME编辑公式：\(\hat{W} = W + \Lambda(C^{-1}k_*)^T\)，其中 \(C = KK^T\) 为预缓存的非中心协方差
whitened similarity定义：\(\beta_{s,*} = k_s^T C^{-1} k_*\)，C为Wikipedia文本估计的协方差
REP适配器：\(\hat{k} = f_{gate}(k) \circ f_{proj}(k) + k\)，gate输出维度为 \(bsz \times L \times 1\)
训练数据：每个主语10种改述（GPT-4o-mini生成），长上下文用WikiText-103的512 token随机片段
实验设置：100个验证样本用于经验分析，CounterFact和ZsRE两个数据集
关键发现数据：改述后whitened similarity从1.0降到<0.4，Michael Jordan与Kobe相关前缀的whitened similarity>2500