CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing¶
会议: ACL 2026
arXiv: 2603.19297
代码: https://github.com/manitbaser/CLaRE
领域: 模型编辑/知识编辑
关键词: 模型编辑, 连锁效应, 表示纠缠, 前向激活, 纠缠图
一句话总结¶
CLARE 提出了一种轻量级的表示层面方法,通过单个中间层的前向激活量化事实间的纠缠程度,用于预测模型编辑的连锁效应,相比梯度方法平均提升 62.2% Spearman 相关性,同时快 2.74 倍、内存减少 2.85 倍。
研究背景与动机¶
领域现状:模型编辑通过修改模型权重更新特定事实关联,但常产生连锁效应——未预期的行为变化传播到其他输出,甚至传播到隐藏空间。
现有痛点:(1) 连锁效应可以延伸到语义无关的事实,产生跨领域干扰;(2) 现有方法(如 GradSim)使用梯度相似度,计算成本高且与跨领域连锁效应相关性差;(3) 缺乏大规模跨领域连锁效应的系统研究。
核心矛盾:模型编辑需要精确预测哪些事实会受影响,但现有方法既慢又不准确。
本文目标:提出轻量级、高精度的连锁效应预测方法,并构建大规模纠缠图。
切入角度:用前向激活替代梯度计算,仅需单层激活即可量化纠缠。
核心 idea:事实间的纠缠可以通过关键层的前向激活表示的相似度来量化,而不需要计算梯度。
方法详解¶
整体框架¶
(1) 准备 11,427 个跨领域事实语料库(来自 3 个现有数据集);(2) 对每个事实提取关键中间层的前向激活;(3) 计算事实对之间的纠缠分数;(4) 构建大规模纠缠图用于保护集构建、审计跟踪和红队测试。
关键设计¶
-
CLARE 纠缠量化 (Critical Layer Representation Entanglement):
- 功能:轻量级地量化两个事实在模型中的纠缠程度
- 核心思路:对每个事实提示,提取关键中间层(通常是因果跟踪识别的层)的前向激活向量,计算两个事实激活向量的相似度作为纠缠分数。无需反向传播或梯度计算
- 设计动机:梯度方法需要对每个事实计算完整梯度,计算和内存成本巨大;前向激活仅需一次前向传播
-
大规模纠缠图构建:
- 功能:可视化模型知识的全局纠缠结构
- 核心思路:对 11,427 个事实计算两两之间的 CLARE 纠缠分数,构建加权纠缠图。发布了多个模型的纠缠图
- 设计动机:纠缠图支持更强的保护集构建、审计跟踪、成本效益型红队测试等下游应用
-
跨领域事实语料库:
- 功能:系统研究编辑如何全局传播
- 核心思路:从 3 个现有数据集整合 11,427 个事实,涵盖 212 种提示格式和 6,140 个独特主体
- 设计动机:现有研究仅关注 1-2 跳语义邻居,未触及跨领域传播
损失函数 / 训练策略¶
不涉及模型训练。CLARE 仅使用前向传播提取激活。
实验关键数据¶
主实验¶
- CLARE 相比 GradSim 平均提升 62.2% Spearman 相关性(最高提升 0.31)
- 速度快 2.74 倍,峰值 GPU 内存减少 2.85 倍
- 存储需求仅为基线的一小部分
消融实验¶
- 在多种编辑技术(ROME、MEMIT)和多个模型上结果一致
- 纠缠图支持的保护集构建显著减少编辑副作用
关键发现¶
- 前向激活比梯度更能预测跨领域连锁效应
- 连锁效应可以传播到语义完全无关的事实
- 单层激活足以捕获关键纠缠信息
亮点与洞察¶
- 用前向激活替代梯度计算是简洁且有效的洞察
- 大规模纠缠图的发布为社区提供了宝贵资源
- 审计跟踪和红队测试的应用场景展示了实用价值
局限与展望¶
- 关键层的选择可能依赖于模型架构
- 纠缠图是静态的,可能不反映多次编辑后的变化
- 未来可探索动态纠缠图和更大规模的事实库
相关工作与启发¶
- 对 GradSim 和 RippleEdits 的重要改进
- 为模型编辑的安全性和可解释性提供了新工具
- 纠缠图的思路可推广到模型安全和可解释性研究
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 前向激活量化纠缠是重要的方法论创新
- 实验充分度: ⭐⭐⭐⭐⭐ 11,427 事实、多模型、多编辑技术的全面验证
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述简洁
相关论文¶
- [ACL 2025] ChainEdit: Propagating Ripple Effects in LLM Knowledge Editing through Logical Rule-Guided Chains
- [ACL 2026] FABLE: Fine-grained Fact Anchoring for Unstructured Model Editing
- [ACL 2026] Aligning Language Models with Real-time Knowledge Editing
- [ACL 2026] EvoEdit: Evolving Null-space Alignment for Robust and Efficient Knowledge Editing
- [AAAI 2026] Multiplicative Orthogonal Sequential Editing for Language Models (MOSE)