NegMerge: Sign-Consensual Weight Merging for Machine Unlearning¶

会议: ICML2025
arXiv: 2410.05583
代码: naver-ai/negmerge
领域: 机器遗忘 (Machine Unlearning)
关键词: 机器遗忘, 任务向量, 模型合并, 权重符号一致性, CLIP

一句话总结¶

提出 NegMerge，通过合并多个不同超参数微调模型的任务向量、仅保留符号一致的权重元素来构造更有效的遗忘向量，在零样本与标准分类场景中均取得 SOTA 遗忘效果。

研究背景与动机¶

问题场景¶

"被遗忘权"（Right to be Forgotten）要求模型能够删除特定用户数据的影响。从头重训代价极高，机器遗忘（Machine Unlearning）旨在不重训的前提下选择性地移除模型已学到的特定知识。

现有方法的不足¶

Task Arithmetic 是当前代表性方法：先在 forget set 上微调得到微调模型 \(\theta_{ft}\)，计算任务向量 \(\tau = \theta_{ft} - \theta_{pre}\)，再从原模型中减去 \(\tau\) 实现遗忘。但该方法存在两大核心问题：

超参数敏感性：遗忘效果对微调超参数（学习率等）极为敏感，forget set 上的准确率变动幅度可达 15个百分点。需要大量验证才能找到合适的模型。

遗忘-保持权衡困难：在 forget set 上遗忘效果好的超参数配置，往往会严重损害 retain set 上的性能，反之亦然。单一模型选择无法同时兼顾两端。

核心动机¶

既然验证过程中已经产生了大量微调模型（通常 10–30 个），为什么只选一个而丢弃其余？NegMerge 的思路是：利用所有候选模型，通过符号一致性合并任务向量，综合多个模型的信息来构造更优的遗忘向量。

方法详解¶

整体流程¶

NegMerge 分三步：

Step 1：计算多样任务向量。 使用不同超参数（学习率、数据增强等）在 forget set 上微调原模型，得到 \(n\) 个微调模型 \(\{\theta_{ft}^{(k)}\}_{k=1}^n\)，对应 \(n\) 个任务向量：

\[\tau_k = \theta_{ft}^{(k)} - \theta_{pre}, \quad k = 1, \ldots, n\]

Step 2：符号一致性筛选。 分析所有任务向量的逐元素符号。核心假设是：

符号一致的元素 → 与 forget set 知识强相关，因为无论超参数如何变化，这些元素的方向始终一致
符号不一致的元素 → 更可能是由不同训练配置引入的噪声，与 forget set 关系较弱

Step 3：合并与遗忘。 最终任务向量的计算公式：

\[\tau_{\text{merged}} = \frac{1}{n} \sum_{k=1}^{n} \left( \tau_k \odot \mathbf{1}_{\text{sign-consistent}} \right)\]

其中 \(\odot\) 为 Hadamard 积（逐元素乘法），\(\mathbf{1}_{\text{sign-consistent}}\) 是一个二值掩码：当所有 \(\tau_k\) 在该位置符号一致时为 1，否则为 0。最终用该合并向量在原模型上执行否定操作：

\[\theta_{\text{new}} = \theta_{pre} - \lambda \cdot \tau_{\text{merged}}\]

计算效率分析¶

维度	NegMerge 优势
推理复杂度	\(O(m)\) vs 传统 \(O(mn)\)，只需对单一合并向量搜索 \(\lambda\)
存储开销	动态更新掩码，无需存储所有微调模型
运行时内存	合并后 90–95% 权重被置零，高度稀疏，可用查找表加速
合并时间	37 秒（30 模型），介于 Uniform (12s) 和 TIES (128s) 之间

实验关键数据¶

实验一：CLIP 零样本遗忘¶

在 8 个数据集上遗忘特定领域知识，同时保持 ImageNet 性能。

方法	ViT-B/32 Forget↓	ViT-B/32 Retain	ViT-B/16 Forget↓	ViT-L/14 Forget↓
Pre-trained	48.13	63.33	55.49	65.19
Task Arithmetic (best)	23.63	60.60	20.64	19.17
Uniform Merge	22.50	60.55	21.51	18.10
TIES-Merging	26.21	61.08	23.78	22.70
MagMax	25.24	60.95	24.45	21.71
NegMerge	20.76	60.36	19.24	17.32

NegMerge 在所有 backbone 上均取得最低 forget set 准确率（＝最好的遗忘效果），同时 retain set 准确率与其他方法相当。

Linear Task Arithmetic 场景下同样领先：ViT-B/32 上 forget 准确率降至 8.03%（对比 Task Arithmetic best 8.88%）。

实验二：标准分类器遗忘（CIFAR-10, ResNet-18, 10% 随机遗忘）¶

方法	Acc D_r (≃)	Acc D_f (≃)	Acc D_test (≃)	MIA (≃)	Avg. Gap↓
Retrain（理想基准）	100.00	94.76	94.26	12.88	0.00
SalUn	99.62	97.15	93.93	14.39	1.15
ℓ₁-sparse	97.74	95.81	91.59	9.84	2.26
Task Arithmetic (best)	98.36	94.85	91.49	10.91	1.62
NegMerge	—	—	—	—	最低

NegMerge 的 Avg. Gap（与 Retrain 基准的差距）最小，表明其遗忘后的模型行为最接近从头重训的理想结果。

关键消融实验¶

模型数量鲁棒性：\(n\) 从 10 增加到 30，NegMerge 性能持续稳定，不像单模型选择那样波动
符号一致性比例：合并后仅 5–10% 的权重元素保持非零，证明了符号过滤的高度选择性
与其他合并策略对比：符号一致性合并在遗忘任务上显著优于 TIES-Merging（基于幅值投票）和 MagMax（取最大值），说明符号一致性是遗忘场景下更本质的信号

亮点与洞察¶

极简而有效的核心思想：仅靠"取符号一致的元素"这一简单操作即大幅超越现有方法，无需引入额外超参数
打破遗忘-保持权衡：将多个模型的互补信息融合，单一模型无法实现的遗忘-保持平衡在合并后自然涌现
存储友好：不需要保存所有模型权重，只需在训练时动态维护二值掩码
跨任务通用性强：在 CLIP 零样本遗忘和标准分类器遗忘两种截然不同的场景中均有效
权重稀疏性的意外收获：合并后 90%+ 权重置零，天然支持稀疏化部署

局限与展望¶

仅限分类任务验证：未在生成模型（如扩散模型）或 LLM 上验证遗忘效果，适用范围有待拓展
严格符号一致性可能过于保守：要求所有模型符号一致意味着一个"异议"就会排除该元素，部分一致性（majority voting）或许能保留更多有用信息
依赖验证过程产生多模型：方法的前提是已有多个超参数配置的微调模型，若只有单次微调则无法使用
缩放系数 \(\lambda\) 仍需搜索：虽然搜索空间从 \(O(mn)\) 降至 \(O(m)\)，但 \(\lambda\) 的选择仍是超参数
隐私保证缺乏理论界：实验中使用 MIA 评估隐私保护，但未给出遗忘效果的形式化隐私保证

评分¶

新颖性: ⭐⭐⭐⭐ — 符号一致性合并用于遗忘是新颖的组合，思路简洁直觉强
实验充分度: ⭐⭐⭐⭐⭐ — 12个数据集×4种 backbone×2种场景，消融全面
写作质量: ⭐⭐⭐⭐ — 动机→方法→实验逻辑清晰，图表设计精良
价值: ⭐⭐⭐⭐ — 实用性强，计算开销低，但限于视觉分类场景