EAMET: Robust Massive Model Editing via Embedding Alignment Optimization¶
会议: ICLR 2026
arXiv: 2505.11876
代码: 无
领域: AI安全 / 模型编辑
关键词: model editing, embedding alignment, MEMIT, knowledge editing, misalignment
一句话总结¶
发现大规模模型编辑失败的根本原因是 key embedding 和 residual embedding 之间的结构不一致(embedding misalignment),提出 EAMET 通过 KL+MSE 双损失渐进式对齐优化,在 6 个 LLM 上平均提升编辑成功率 14%(CounterFact)。
研究背景与动机¶
- 领域现状:模型编辑旨在不重训的前提下修改 LLM 的特定知识。MEMIT 等方法通过修改 FFN 权重实现批量编辑,但编辑量 >1000 时性能急降。
- 现有痛点:(a) 编辑前加长前缀导致准确率从 98.5% 降至 ~77%;(b) 同主语多事实编辑相互干扰。
- 核心矛盾:大规模编辑时,残差 embedding 与 key embedding 的空间分布逐渐偏离,导致检索失败。
- 本文要解决什么? 保持大规模编辑时 embedding 空间的结构一致性。
- 切入角度:用 KL 散度量化 cosine 相似度分布的不一致程度,发现 misalignment 与编辑失败高度相关。
- 核心idea一句话:用 KL+MSE 双损失将 residual embedding 的邻居结构对齐到 key embedding 空间。
方法详解¶
整体框架¶
三步:(1) 提取 key embedding 的 cosine 相似度分布 (2) KL+MSE 双损失迭代优化 residual embedding (3) 在对齐约束下优化 NLL 损失。
关键设计¶
- Embedding Misalignment 形式化:
- Misalignment 分数 \(\mathcal{A}(i) = KL(P_r^{(i)} \| P_k^{(i)})\)
- Theorem 1:重构误差上界与 misalignment 正相关
-
实证:LLaMA2-7B 编辑 200→1000 条,misalignment 79→554,准确率 98.5%→86.8%
-
双损失对齐:
- \(L_{KL}\):分布级对齐 + \(L_{MSE}\):top-M 相似度精确匹配
- 总损失含 NLL + 对齐正则
实验关键数据¶
主实验(10k 事实编辑,6 个 LLM)¶
| 数据集 | 平均提升 | 峰值提升 |
|---|---|---|
| CounterFact | +14% | +37% |
| ZsRE | +8% | +15% |
前缀鲁棒性(50-token prefix)¶
MEMIT: 77.4% → EAMET: ~90%
关键发现¶
- Misalignment 高的编辑项准确率降至 ~48%,低的保持 ~90%。
- 6 个 LLM 上一致优于 MEMIT/ROME 等基线。
亮点与洞察¶
- Embedding misalignment 的发现:首次形式化大规模编辑失败的根本原因——空间结构被破坏而非优化不足。
- 理论+实证+方案的完整闭环。
局限性 / 可改进方向¶
- 逐条迭代优化,计算成本随编辑量线性增长。
- 仅限 FFN 权重编辑的 Transformer 模型。
相关工作与启发¶
- vs MEMIT:MEMIT 无对齐约束在大规模编辑时失效,EAMET 的对齐损失可视为 MEMIT 正则化。
- vs Erase or Hide (Ssiuu):两者都揭示"表面成功但内部结构破损"的问题。
评分¶
- 新颖性: ⭐⭐⭐⭐ Embedding misalignment 的发现和形式化原创
- 实验充分度: ⭐⭐⭐⭐ 6 个 LLM × 3 个数据集
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰
- 价值: ⭐⭐⭐⭐ 解决了大规模模型编辑的实际瓶颈