CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing¶

会议: ACL 2026
arXiv: 2603.19297
代码: https://github.com/manitbaser/CLaRE
领域: 模型编辑/知识编辑
关键词: 模型编辑, 连锁效应, 表示纠缠, 前向激活, 纠缠图

一句话总结¶

CLARE 提出了一种轻量级的表示层面方法，通过单个中间层的前向激活量化事实间的纠缠程度，用于预测模型编辑的连锁效应，相比梯度方法平均提升 62.2% Spearman 相关性，同时快 2.74 倍、内存减少 2.85 倍。

领域现状：模型编辑通过修改模型权重更新特定事实关联，但常产生连锁效应——未预期的行为变化传播到其他输出，甚至传播到隐藏空间。

现有痛点：(1) 连锁效应可以延伸到语义无关的事实，产生跨领域干扰；(2) 现有方法（如 GradSim）使用梯度相似度，计算成本高且与跨领域连锁效应相关性差；(3) 缺乏大规模跨领域连锁效应的系统研究。

核心矛盾：模型编辑需要精确预测哪些事实会受影响，但现有方法既慢又不准确。

本文目标：提出轻量级、高精度的连锁效应预测方法，并构建大规模纠缠图。

切入角度：用前向激活替代梯度计算，仅需单层激活即可量化纠缠。

核心 idea：事实间的纠缠可以通过关键层的前向激活表示的相似度来量化，而不需要计算梯度。

(1) 准备 11,427 个跨领域事实语料库（来自 3 个现有数据集）；(2) 对每个事实提取关键中间层的前向激活；(3) 计算事实对之间的纠缠分数；(4) 构建大规模纠缠图用于保护集构建、审计跟踪和红队测试。

CLARE 纠缠量化 (Critical Layer Representation Entanglement):
- 功能：轻量级地量化两个事实在模型中的纠缠程度
- 核心思路：对每个事实提示，提取关键中间层（通常是因果跟踪识别的层）的前向激活向量，计算两个事实激活向量的相似度作为纠缠分数。无需反向传播或梯度计算
- 设计动机：梯度方法需要对每个事实计算完整梯度，计算和内存成本巨大；前向激活仅需一次前向传播
大规模纠缠图构建:
- 功能：可视化模型知识的全局纠缠结构
- 核心思路：对 11,427 个事实计算两两之间的 CLARE 纠缠分数，构建加权纠缠图。发布了多个模型的纠缠图
- 设计动机：纠缠图支持更强的保护集构建、审计跟踪、成本效益型红队测试等下游应用
跨领域事实语料库:
- 功能：系统研究编辑如何全局传播
- 核心思路：从 3 个现有数据集整合 11,427 个事实，涵盖 212 种提示格式和 6,140 个独特主体
- 设计动机：现有研究仅关注 1-2 跳语义邻居，未触及跨领域传播

不涉及模型训练。CLARE 仅使用前向传播提取激活。