跳转至

Tracing and Reversing Edits in LLMs

会议: ICLR 2026
arXiv: 2505.20819
代码: https://github.com/paulyoussef/trace-and-reverse/
领域: AI Safety / 知识编辑
关键词: knowledge editing, model security, SVD, edit tracing, edit reversal

一句话总结

针对知识编辑(Knowledge Editing)的双重使用风险,提出 EditScope 方法从编辑后的权重中推断被编辑的目标实体(准确率高达 99%),以及基于 SVD bottom-rank 近似的无训练编辑逆转方法(逆转率高达 94%),仅依赖编辑后的权重、不需要编辑 prompt 或原始权重信息。

研究背景与动机

  1. 领域现状:知识编辑(KE)方法如 ROME、MEMIT 可以低成本地更新 LLM 中的事实知识,操作形式为 \((s, r, o \to o')\),如将"德国总理是 Scholz"改为"Merz"。
  2. 现有痛点:KE 存在双重使用风险——既可用于更新过时信息,也可被恶意利用注入错误信息、偏见或后门。现有防御工作假设有一组"可能被编辑的事实"来逐条检查,这在实际中不可行。
  3. 核心矛盾:如何在完全不知道编辑了什么(不知道编辑 prompt、原始权重、被编辑的事实)的情况下,仅从编辑后的权重中发现并逆转恶意编辑?
  4. 本文要解决什么? 形式化两个任务:(1) 追踪编辑——从编辑后的权重推断被编辑的目标实体 \(o'\);(2) 逆转编辑——恢复模型的原始输出,不需要任何额外信息。
  5. 切入角度:利用知识编辑方法的结构特性——ROME 等方法产生 rank-1 更新 \(W'_V = W_V + W_N\),编辑信息集中在最大奇异值对应的成分中。
  6. 核心 idea 一句话:编辑后的权重矩阵中,编辑信息集中在顶部奇异值分量,利用这一特性可以高精度追踪和无训练逆转恶意知识编辑。

方法详解

整体框架

给定编辑后的模型,两个核心任务:(1) EditScope 通过训练模型的非编辑层来解码编辑矩阵 \(W'_V\),生成被编辑的目标实体 \(o'\);(2) 逆转方法通过 SVD 的 bottom-rank 近似去除编辑信息,恢复原始输出。两个方法都仅依赖编辑后的权重。

关键设计

  1. EditScope(追踪编辑):
  2. 做什么:从编辑后的权重矩阵 \(W'_V\) 中推断被编辑的目标实体 \(o'\)
  3. 核心思路:使用固定的随机输入 \(x_{fixed} = (t_1, ..., t_m)\)\(m=5\) 个新增 token),将编辑矩阵 \(W'_{V_i}\) 作为"输入"替换模型中的原始矩阵,训练其他层的参数使模型输出对应的编辑目标 \(o'_i\)。训练损失为交叉熵:\(\mathcal{L} = -\sum_{j=1}^{|\mathcal{V}|} \mathbb{1}_{i=j} \cdot \log(Q_j)\)
  4. 设计动机:KE 导致编辑目标在权重中过度表示(overfitting to edited objects),训练模型适配表示即可"解码"出编辑目标。固定随机输入避免了需要知道编辑 prompt 的问题

  5. Bottom-Rank 近似(逆转编辑):

  6. 做什么:移除编辑信息,恢复模型原始输出
  7. 核心思路:对编辑矩阵做 SVD \(W'_V = U\Sigma V^T\),去除前 \(k\) 个最大奇异值及其对应分量,得到 bottom-rank 近似 \(\tilde{W'}_V^{(r,k)} = \sum_{i=k+1}^{r} \Sigma_{ii} u_i v_i^T\)
  8. 设计动机:ROME 等方法的更新矩阵 \(W_N\) 是 rank-1 的,编辑信息主要集中在编辑矩阵的最大奇异值分量中(实验验证:GPT2-XL 上 \(k=1\) 时更新矩阵与 rank-1 近似的余弦相似度高达 0.98)。去除这些分量等价于去除编辑信息

  9. 编辑后检测:

  10. 做什么:区分编辑过和未编辑的权重矩阵
  11. 核心思路:可复用 bottom-rank 近似方法——如果去除前 \(k\) 个分量后输出变化大,说明这些分量包含异常信息(编辑)
  12. 设计动机:实际部署中首先需要知道哪些层被编辑了,才能定向逆转

训练策略

  • EditScope:用 600 个编辑矩阵训练(来自 20 个关系),100 个验证,300 个 ID 测试 + 330 个 OOD 测试(来自 11 个未见关系)。最多 100 epoch,patience=3 early stopping
  • 逆转方法:完全无需训练,直接做 SVD 分解和近似

实验关键数据

主实验 - EditScope 追踪准确率

模型 ROME ID ROME OOD r-ROME ID r-ROME OOD
GPT2-XL 99.40% 99.70% 99.73% 99.70%
GPT-J-6B 97.60% 94.42% 96.50% 95.91%
LLAMA3-8B 96.47% 91.21% 94.87% 88.18%
QWEN2.5-7B 91.20% 87.45% 88.53% 85.45%

消融实验 - 逆转方法(ROME, 最优 k 值)

模型 最优 k 逆转准确率 编辑准确率↓ KL 散度 (k=0 → k_opt)
GPT2-XL 11 94.52% 1.29% 6.038 → 0.010
GPT-J-6B 14 80.00% 2.26% 11.567 → 0.218
LLAMA3-8B 15 80.00% 6.45% 10.068 → 0.604
QWEN2.5-7B 13 62.90% 26.13% 8.988 → 1.615

关键发现

  • GPT 系列最容易追踪和逆转:GPT2-XL 追踪达 99%、逆转达 94%,因为编辑信息极度集中在 \(k=1\) 分量
  • 模型越大/越新,逆转越难:QWEN2.5-7B 逆转率仅 62.9%,因为编辑信息分散在更多奇异值分量中
  • OOD 泛化良好:EditScope 在未见过的关系上仍保持 >85% 准确率
  • 逆转不损害模型能力:在 CoLA、MMLU 等基准上,逆转后的模型性能与编辑前几乎无差异
  • KL 散度大幅下降:逆转后模型输出分布接近原始分布(GPT2-XL: 6.038 → 0.010)

亮点与洞察

  • 最小假设的防御设计:不需要知道编辑 prompt、原始权重、或被编辑内容的任何信息,仅从编辑后的权重就能追踪和逆转——这是真正实用的防御场景。
  • SVD 的精妙利用:rank-1 编辑自然映射到最大奇异值分量,这个理论洞见简洁优雅。Bottom-rank 近似作为降噪技术可以迁移到其他需要去除权重中特定信息的场景。
  • EditScope 的"无关输入"设计:用固定随机 token 作为输入,让训练过程只关注权重矩阵中的编辑信息,避免了对编辑 prompt 的依赖。这个 trick 很聪明。

局限性 / 可改进方向

  • 仅聚焦 rank-1 编辑:ROME/r-ROME 是 rank-1 更新,MEMIT 等批量编辑方法的更新矩阵不是严格 rank-1,逆转效果可能下降
  • QWEN 逆转率较低(62.9%):较新的模型架构可能需要更精细的 SVD 策略
  • 单编辑场景为主:虽然附录讨论了批量和顺序编辑,但主实验仅针对单次编辑
  • 需要知道哪一层被编辑:虽然附录提供了层检测方法,但实际部署中确定编辑位置仍是前置挑战
  • 计算开销:SVD 对大矩阵的计算成本可能在超大模型上成为瓶颈

相关工作与启发

  • vs Youssef et al. (2025c): 他们通过分析隐藏状态/输出概率检测编辑,需要候选编辑事实集合;本文不需要任何先验知识
  • vs Li et al. (2025): 确定编辑类型(错误信息/偏见),本文追踪编辑的具体内容
  • vs AlphaEdit (Fang et al. 2025): AlphaEdit 是一种编辑方法,本文在附录中验证对其也有效
  • 这篇工作对模型水印和知识产权保护也有启发——如果编辑可被追踪,那么模型中特定知识的来源也可能被追溯

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次形式化编辑追踪和逆转任务,方法简洁有效
  • 实验充分度: ⭐⭐⭐⭐ 4 个模型 × 2 个 KE × 2 个数据集,附录有大量泛化实验
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,方法推导严谨
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 安全防御有重大实用意义