PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning¶

会议: NeurIPS 2025
arXiv: 2507.01271
代码: 无
领域: AI安全 / 机器遗忘评估
关键词: 机器遗忘, 大规模多模态模型, 预训练知识, 可持续性, 评估基准

一句话总结¶

本文提出 PULSE 评估协议，从预训练知识遗忘和多次顺序遗忘的可持续性两个实际维度出发，揭示了现有遗忘方法在 LMM 上的严重不足——遗忘预训练知识会导致 90% 以上通用能力丧失，连续遗忘 5 次后模型泛化能力几乎完全崩溃。

随着大语言模型（LLM）和大规模多模态模型（LMM）的普及，训练数据可能包含个人隐私信息和受版权保护的内容，遗忘（unlearning）技术因此受到关注。目前已有多种遗忘方法被提出（如 GA、NPO、SIU 等），LLM 领域也有 TOFU 和 MUSE 等评估基准。

然而，LMM 遗忘领域缺乏实际的评估框架。唯一的 LMM 遗忘基准 MLLMU-Bench 存在两个关键缺陷：

只考虑微调知识遗忘：仅测试遗忘最近一次微调中学到的知识，无法评估对预训练阶段获得的知识的遗忘效果。而在实际场景中，需要遗忘的信息很可能在预训练阶段就已被学会。

只考虑单次遗忘操作：现实中遗忘请求是持续到来的（如不同用户陆续提出数据删除要求），需要对同一模型进行多次遗忘操作。

PULSE 协议正是为了填补这两个关键评估空白而设计的。

PULSE 在传统"先微调、再遗忘"的评估管线之上，增加了两个新的评估维度：

问题形式化：
- 将数据分为遗忘目标 \(\mathcal{D}_{\text{unlearn}}\) 和保留数据 \(\mathcal{D}_{\text{retain}}\)
- 评估两方面：有效性（\(\mathcal{D}_{\text{unlearn}}\) 上准确率下降）和泛化性（\(\mathcal{D}_{\text{retain}}\) 和 MMBench 上准确率保持）
- 关键设定：不论是否提供图像输入，模型对遗忘目标都不应泄露任何信息——既评估多模态任务也评估纯文本任务
预训练知识遗忘设计：
- 不同于传统方法从微调数据中选择遗忘目标，而是从预训练阶段模型已"知道"的知识中选择
- 从 MLLMU-Bench 数据集中 153 位真实名人中，筛选出 LLaVA-v1.5-13B 准确率最高的 45 人
- 20 人作为 \(\mathcal{D}_{\text{unlearn}}\)，25 人作为 \(\mathcal{D}_{\text{retain}}\)
- 每个人关联 10 个问答对（5 个多模态 + 5 个纯文本）
可持续性评估设计：
- 将 \(\mathcal{D}_{\text{unlearn}}\)（50 人）分为 5 个子集，每个子集 10 人
- 对模型依次执行 5 次遗忘操作
- 在每次操作后追踪有效性和泛化性指标的变化

评估了三种遗忘方法： - GA（梯度上升）：在 \(\mathcal{D}_{\text{unlearn}}\) 上沿梯度反方向更新参数 - GA+KLR：在 GA 基础上加 KL 散度正则化，保持更新后模型与原始模型接近 - NPO：偏好优化方法，将遗忘数据视为负例

使用 LLaVA-v1.5-13B 作为基础模型，微调和遗忘均使用 LoRA。

知识类型	方法	\(\mathcal{D}_{\text{unlearn}}\) 遗忘率	\(\mathcal{D}_{\text{retain}}\) 保持率	MMBench 保持率
微调知识	GA	高（有效遗忘）	~70%	~90%
微调知识	GA+KLR	中等	~75%	~92%
微调知识	NPO	高	~72%	~91%
预训练知识	GA	高（有效遗忘）	显著下降	<10%（灾难性）
预训练知识	GA+KLR	中等	下降	<10%
预训练知识	NPO	高	下降	<10%

参数更新目标	遗忘方法	\(\mathcal{D}_{\text{unlearn}}\) Multi↓	\(\mathcal{D}_{\text{unlearn}}\) Text↓	MMBench↑
遗忘前	-	78.0	76.8	75.1
Proj+LLM	GA	9.6	35.2	71.1
LLM only	GA	24.8	33.2	48.8

预训练知识极难遗忘：虽然 \(\mathcal{D}_{\text{unlearn}}\) 上的准确率确实下降了，但 MMBench 分数暴跌超过 90%。这意味着遗忘预训练知识的代价是几乎完全丧失模型的通用多模态能力
可持续性完全不足：经过 5 次顺序遗忘后，所有方法的泛化指标（\(\mathcal{D}_{\text{retain}}\) 和 MMBench）几乎归零，表明当前方法完全无法应对现实中的连续遗忘场景
模态间遗忘不均衡：更新 Proj+LLM 时，多模态任务准确率从 78.0% 降到 9.6%，但纯文本任务仅降到 35.2%——说明现有方法可能只是"破坏了图像与知识的对齐"，而非真正遗忘了知识本身
参数选择的矛盾：仅更新 LLM 时 MMBench 大幅下降（48.8%），但同时更新 Proj 和 LLM 时 MMBench 仅小幅下降（71.1%）。可能原因是允许更新投影矩阵让模型可以通过"断开模态间连接"来"偷懒遗忘"