EAMET: Robust Massive Model Editing via Embedding Alignment Optimization¶

会议: ICLR 2026
arXiv: 2505.11876
代码: 无
领域: AI安全 / 模型编辑
关键词: model editing, embedding alignment, MEMIT, knowledge editing, misalignment

一句话总结¶

发现大规模模型编辑失败的根本原因是 key embedding 和 residual embedding 之间的结构不一致（embedding misalignment），提出 EAMET 通过 KL+MSE 双损失渐进式对齐优化，在 6 个 LLM 上平均提升编辑成功率 14%（CounterFact）。

研究背景与动机¶

领域现状：模型编辑旨在不重训的前提下修改 LLM 的特定知识。MEMIT 等方法通过修改 FFN 权重实现批量编辑，但编辑量 >1000 时性能急降。
现有痛点：(a) 编辑前加长前缀导致准确率从 98.5% 降至 ~77%；(b) 同主语多事实编辑相互干扰。
核心矛盾：大规模编辑时，残差 embedding 与 key embedding 的空间分布逐渐偏离，导致检索失败。
本文要解决什么？ 保持大规模编辑时 embedding 空间的结构一致性。
切入角度：用 KL 散度量化 cosine 相似度分布的不一致程度，发现 misalignment 与编辑失败高度相关。
核心idea一句话：用 KL+MSE 双损失将 residual embedding 的邻居结构对齐到 key embedding 空间。

方法详解¶

整体框架¶

三步：(1) 提取 key embedding 的 cosine 相似度分布 (2) KL+MSE 双损失迭代优化 residual embedding (3) 在对齐约束下优化 NLL 损失。

关键设计¶

Embedding Misalignment 形式化：
Misalignment 分数 \(\mathcal{A}(i) = KL(P_r^{(i)} \| P_k^{(i)})\)
Theorem 1：重构误差上界与 misalignment 正相关
实证：LLaMA2-7B 编辑 200→1000 条，misalignment 79→554，准确率 98.5%→86.8%
双损失对齐：
\(L_{KL}\)：分布级对齐 + \(L_{MSE}\)：top-M 相似度精确匹配
总损失含 NLL + 对齐正则

实验关键数据¶

主实验（10k 事实编辑，6 个 LLM）¶

数据集	平均提升	峰值提升
CounterFact	+14%	+37%
ZsRE	+8%	+15%

前缀鲁棒性（50-token prefix）¶

MEMIT: 77.4% → EAMET: ~90%

关键发现¶

Misalignment 高的编辑项准确率降至 ~48%，低的保持 ~90%。
6 个 LLM 上一致优于 MEMIT/ROME 等基线。

亮点与洞察¶

Embedding misalignment 的发现：首次形式化大规模编辑失败的根本原因——空间结构被破坏而非优化不足。
理论+实证+方案的完整闭环。

局限性 / 可改进方向¶

逐条迭代优化，计算成本随编辑量线性增长。
仅限 FFN 权重编辑的 Transformer 模型。

评分¶

新颖性: ⭐⭐⭐⭐ Embedding misalignment 的发现和形式化原创
实验充分度: ⭐⭐⭐⭐ 6 个 LLM × 3 个数据集
写作质量: ⭐⭐⭐⭐ 理论推导清晰
价值: ⭐⭐⭐⭐ 解决了大规模模型编辑的实际瓶颈