跳转至

CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing

会议: ACL 2026
arXiv: 2603.19297
代码: https://github.com/manitbaser/CLaRE
领域: 模型编辑/知识编辑
关键词: 模型编辑, 连锁效应, 表示纠缠, 前向激活, 纠缠图

一句话总结

CLARE 提出了一种轻量级的表示层面方法,通过单个中间层的前向激活量化事实间的纠缠程度,用于预测模型编辑的连锁效应,相比梯度方法平均提升 62.2% Spearman 相关性,同时快 2.74 倍、内存减少 2.85 倍。

研究背景与动机

领域现状:模型编辑通过修改模型权重更新特定事实关联,但常产生连锁效应——未预期的行为变化传播到其他输出,甚至传播到隐藏空间。

现有痛点:(1) 连锁效应可以延伸到语义无关的事实,产生跨领域干扰;(2) 现有方法(如 GradSim)使用梯度相似度,计算成本高且与跨领域连锁效应相关性差;(3) 缺乏大规模跨领域连锁效应的系统研究。

核心矛盾:模型编辑需要精确预测哪些事实会受影响,但现有方法既慢又不准确。

本文目标:提出轻量级、高精度的连锁效应预测方法,并构建大规模纠缠图。

切入角度:用前向激活替代梯度计算,仅需单层激活即可量化纠缠。

核心 idea:事实间的纠缠可以通过关键层的前向激活表示的相似度来量化,而不需要计算梯度。

方法详解

整体框架

(1) 准备 11,427 个跨领域事实语料库(来自 3 个现有数据集);(2) 对每个事实提取关键中间层的前向激活;(3) 计算事实对之间的纠缠分数;(4) 构建大规模纠缠图用于保护集构建、审计跟踪和红队测试。

关键设计

  1. CLARE 纠缠量化 (Critical Layer Representation Entanglement):

    • 功能:轻量级地量化两个事实在模型中的纠缠程度
    • 核心思路:对每个事实提示,提取关键中间层(通常是因果跟踪识别的层)的前向激活向量,计算两个事实激活向量的相似度作为纠缠分数。无需反向传播或梯度计算
    • 设计动机:梯度方法需要对每个事实计算完整梯度,计算和内存成本巨大;前向激活仅需一次前向传播
  2. 大规模纠缠图构建:

    • 功能:可视化模型知识的全局纠缠结构
    • 核心思路:对 11,427 个事实计算两两之间的 CLARE 纠缠分数,构建加权纠缠图。发布了多个模型的纠缠图
    • 设计动机:纠缠图支持更强的保护集构建、审计跟踪、成本效益型红队测试等下游应用
  3. 跨领域事实语料库:

    • 功能:系统研究编辑如何全局传播
    • 核心思路:从 3 个现有数据集整合 11,427 个事实,涵盖 212 种提示格式和 6,140 个独特主体
    • 设计动机:现有研究仅关注 1-2 跳语义邻居,未触及跨领域传播

损失函数 / 训练策略

不涉及模型训练。CLARE 仅使用前向传播提取激活。

实验关键数据

主实验

  • CLARE 相比 GradSim 平均提升 62.2% Spearman 相关性(最高提升 0.31)
  • 速度快 2.74 倍,峰值 GPU 内存减少 2.85 倍
  • 存储需求仅为基线的一小部分

消融实验

  • 在多种编辑技术(ROME、MEMIT)和多个模型上结果一致
  • 纠缠图支持的保护集构建显著减少编辑副作用

关键发现

  • 前向激活比梯度更能预测跨领域连锁效应
  • 连锁效应可以传播到语义完全无关的事实
  • 单层激活足以捕获关键纠缠信息

亮点与洞察

  • 用前向激活替代梯度计算是简洁且有效的洞察
  • 大规模纠缠图的发布为社区提供了宝贵资源
  • 审计跟踪和红队测试的应用场景展示了实用价值

局限与展望

  • 关键层的选择可能依赖于模型架构
  • 纠缠图是静态的,可能不反映多次编辑后的变化
  • 未来可探索动态纠缠图和更大规模的事实库

相关工作与启发

  • 对 GradSim 和 RippleEdits 的重要改进
  • 为模型编辑的安全性和可解释性提供了新工具
  • 纠缠图的思路可推广到模型安全和可解释性研究

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 前向激活量化纠缠是重要的方法论创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 11,427 事实、多模型、多编辑技术的全面验证
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述简洁

相关论文