CORE: Concept-aware Continual Unlearning for Large Vision-Language Models¶
日期: 2026-03-23
arXiv: 2603.21484
代码: 无
领域: 多模态VLM / 机器遗忘
关键词: continual unlearning, LVLM, concept decomposition, mixture-of-experts, over-refusal, concept modulator
一句话总结¶
提出 CORE(COncept-aware REfuser)框架,将 LVLM 持续遗忘问题转化为概念级精细操作——通过概念模块提取细粒度视觉属性与文本意图,概念调制器识别每个遗忘类别的概念组合,再用混合拒绝专家(mixture of refusers)基于概念相关性路由生成精准拒绝响应,在 16 个持续遗忘任务序列中同时避免不相关拒绝和过度拒绝。
研究背景与动机¶
-
领域现状: LVLM(如 MiniGPT、LLaVA)通过大规模多模态预训练取得了优异性能,但预训练数据常包含不当或敏感的视觉-语言对(武器、暴力等),需要通过机器遗忘(machine unlearning)移除特定知识。实践中,删除请求是按序到达的(continual unlearning),而非一次性处理。
-
现有痛点: 从头重训不可行(预训练数据不可用 + 计算代价巨大)。已有遗忘方法(梯度上升、随机标签训练)在单任务上尚可,但顺序遗忘会反复扭曲共享表征,产生虚假关联——模型将视觉-语言模式的表面线索误认为拒绝信号,导致两类错误:(a) 不相关拒绝:新任务遗忘覆盖旧任务的拒绝模式,对旧遗忘任务生成语义不匹配的拒绝;(b) 过度拒绝:对正常查询也触发拒绝行为。
-
核心矛盾: 多模态表征的纠缠性使得编辑特定知识会连带影响其他信息。持续遗忘进一步加剧纠缠,即使引入 retain set 也无法完全缓解——现有方法在 16 个任务后 AR 可降至 8.84%(几乎对所有输入都拒绝)。
-
本文要解决什么: 如何在持续遗忘序列中精准移除目标知识,同时保持对保留数据和通用任务的正常响应能力?
-
切入角度: 从概念分解(concept decomposition)入手——将粗粒度的"遗忘某类数据"分解为细粒度的"遗忘哪些视觉属性 × 文本意图的组合",使拒绝行为有明确的语义锚定。
-
核心 idea: 构建概念模块提取视觉/文本概念激活,用概念调制器区分各遗忘类别的概念组合,通过混合拒绝专家(refusers)生成概念对齐的拒绝,并设计跨任务路由机制复用/分配 refuser,推理时用校准机制防止过度拒绝。
方法详解¶
整体框架¶
CORE 框架由三大组件构成:(1) 概念识别与精炼——概念模块 + 概念调制器;(2) 概念感知的拒绝生成——混合拒绝专家 + 概念相关性路由;(3) 推理时拒绝校准。训练采用两阶段策略:先训概念模块和调制器,再训路由器和拒绝专家。预训练视觉编码器和语言模型参数始终冻结。
关键设计¶
1. 概念模块(Concept Modules)¶
- 做什么: 为每个遗忘类别 \(k\) 构建视觉属性和文本意图的概念集合 \(\mathcal{C}_{\text{q},k}\)(各 20 个概念描述),通过概念模块 \(\bm{\mathcal{E}}_{\text{q},k}\) 生成概念激活向量,衡量输入与各概念的对齐程度。
- 核心思路: 所有任务的概念模块输出拼接形成完整的概念激活:
用预训练编码器(如 CLIP)计算的相似度作为监督目标,最大化概念激活与目标的余弦相似度:
- 设计动机: 概念由 LLM 生成的文本描述定义(如"demonstrators raising placards""flame flickering"),使激活具有可解释性;用 CLIP 做语义对齐确保概念模块学到有意义的表征。
2. 概念调制器(Concept Modulator)¶
- 做什么: 接收多模态概念激活 \((E_{\text{img},i}, E_{\text{txt},i})\),学习对概念进行重加权,强调与当前遗忘类别相关的概念、抑制无关语义。
- 核心思路: 调制器 \(\bm{\mathcal{M}}\) 通过最小化分类交叉熵 \(\mathcal{L}_{\text{mod}}\) 学习遗忘类别识别,输出权重 \(\{m_k\}\) 重加权概念激活:
同时利用历史任务的特征原型(prototypes)防止灾难性遗忘。 - 设计动机: 随着任务增多,不同遗忘类别的概念出现语义重叠,直接使用原始激活会导致无关概念被高度激活。调制器通过学习类别-概念的关联来消歧,实验表明去掉调制器后 CRR 从 88.14% 骤降至 54.53%。
3. 混合拒绝专家与概念相关性路由¶
- 做什么: 维护 \(N_R = 20\) 个拒绝专家(refusers)\(\{\mathcal{V}_j\}_{j=1}^{N_R}\),每个是特化的连接模块,变换视觉特征以引导语言模型生成概念感知的拒绝响应。路由器 \(\mathcal{R}\) 基于精炼后的概念激活计算各 refuser 的贡献权重。
- 核心思路: Refuser 混合输出添加到预训练连接模块的输出上:
跨任务路由通过计算当前任务与历史任务的概念相关性分数来决定 refuser 复用/分配:
基于相关性的对比损失引导路由器对相似任务复用 refuser、对不相关任务使用不同 refuser:
- 设计动机: 固定数量的 refuser 池配合动态路由,避免为每个新任务引入新参数,同时通过概念相关性确保语义一致的任务共享拒绝行为,语义不同的任务使用不同 refuser,从根本上防止跨任务干扰。
损失函数 / 训练策略¶
两阶段训练(每个遗忘任务到来时):
- 阶段一(概念学习): 优化概念模块和调制器,损失为 \(\mathcal{L}_{\text{con}} + \mathcal{L}_{\text{mod}}\),建立可靠的概念预测。
- 阶段二(拒绝生成): 优化路由器和拒绝专家,损失为 \(\mathcal{L}_{\text{ce}} + \mathcal{L}_{\text{ref}}\),生成概念感知的拒绝响应。
推理时拒绝校准: 计算输入与所有已遗忘任务的最高概念相关性分数 \(\beta \in [0,1]\),按此缩放 refuser 贡献:
对非遗忘输入 \(\beta\) 接近 0,自动抑制不必要的拒绝。去掉校准后模型 AR 从 85.03% 暴跌至 4.11%。
实验关键数据¶
主实验¶
设置: Safety QA(6 种安全类型 × 10 类 → 12 个任务)+ ImageNet-R(80 类 → 4 个任务),共 16 个顺序遗忘任务。评估指标:Specificity(S,通用能力保持)、Answer Rate(AR,保留数据非拒绝率)、Context-aware Refusal Rate(CRR,遗忘数据语义对齐拒绝率)、Refusal Gap(\(\Delta_{RR}\),不精确拒绝程度)。
表1: Vicuna-7B 结果(Last,完成全部16个任务后)
| 方法 | S↑ | AR↑ | CRR↑ | \(\Delta_{RR}\)↓ |
|---|---|---|---|---|
| EWC | 76.22 | 24.90 | 51.01 | 35.38 |
| LwF | 72.09 | 43.12 | 41.01 | 33.13 |
| GMM | 62.34 | 9.34 | 56.83 | 37.43 |
| SCRUB | 63.38 | 8.84 | 57.69 | 36.95 |
| MoEAdapter | 94.46 | 54.25 | 52.82 | 31.98 |
| O3 | 92.85 | 81.76 | 73.03 | 9.03 |
| CORE(Ours) | 96.54 | 88.02 | 90.67 | 3.74 |
CORE 在 AR 上领先 O3 达 6.26%,在 CRR 上领先 17.64%,\(\Delta_{RR}\) 仅 3.74(O3 为 9.03),几乎所有拒绝都是语义精准的。
表2: LLaMA-2-7B 结果(Last)
| 方法 | S↑ | AR↑ | CRR↑ | \(\Delta_{RR}\)↓ |
|---|---|---|---|---|
| O3 | 79.75 | 66.73 | 76.74 | 7.72 |
| CORE(Ours) | 97.26 | 84.41 | 84.54 | 6.95 |
在不同 LVLM backbone 上 CORE 依然显著优于所有对比方法,AR 领先 O3 达 17.68%。
消融实验¶
表3: 三个核心组件的消融(Vicuna,Avg)
| MOD | ACT | CAL | S↑ | AR↑ | CRR↑ | \(\Delta_{RR}\)↓ |
|---|---|---|---|---|---|---|
| ✓ | ✓ | ✓ | 97.64 | 86.74 | 88.14 | 8.38 |
| ✗ | ✓ | ✓ | 93.10 | 74.31 | 83.95 | 8.17 |
| ✓ | ✗ | ✓ | 93.82 | 86.90 | 54.53 | 33.81 |
| ✓ | ✓ | ✗ | 37.71 | 4.11 | 86.09 | 10.79 |
- 去掉 MOD(概念调制器):CRR 小幅下降但 AR 降 12.43%,说明概念消歧对保留能力至关重要。
- 去掉 ACT(概念相关性路由):CRR 从 88.14% 骤降至 54.53%,\(\Delta_{RR}\) 飙升至 33.81,拒绝变得不精准。
- 去掉 CAL(推理校准):AR 从 86.74% 暴跌至 4.11%,模型几乎对所有输入都拒绝,说明校准是防止过度拒绝的关键。
关键发现¶
- 传统方法(EWC、LwF、GMM、SCRUB)在 16 个任务后 AR 可低至 8.84%,基本丧失正常应答能力
- MoEAdapter 虽保持通用能力(S=94.46),但 CRR 仅 52.82%,一半以上拒绝不精准
- CORE 在整个遗忘序列中保持稳定的 CRR 曲线(Figure 3),不随任务增多而衰退
- 概念可视化(Figure 6)表明调制器能精准激活"demonstrators raising placards""flame flickering"等语义相关概念,无调制器时大量无关概念被激活
- 定性分析(Figure 5)显示对比方法在后续任务中对保留样本产生虚假拒绝(如将分类任务误判为遗忘类别),CORE 始终生成语境恰当的响应
亮点与洞察¶
- 概念级操作 vs 样本级操作: 将视觉-语言对分解为原子概念组合(视觉属性 × 文本意图),实现了可解释、可追溯的遗忘——不只是"忘了这张图",而是"忘了武器外观+暴力意图的组合"。这是 continual unlearning 领域的全新视角。
- 固定 refuser 池 + 动态路由 = 可扩展: 无需为每个新任务引入新参数,20 个 refuser 通过概念相关性路由即可覆盖 16 个任务,且每个样本仅激活 2 个 refuser,计算开销可控。
- 推理时校准的重要性: 单靠训练阶段无法解决过度拒绝(无 CAL 时 AR=4.11%),推理时的 \(\beta\) 校准是优雅的解决方案——对遗忘相关输入全力拒绝,对无关输入自动"关闭"refuser。
- 不需要 retain set: 与 SCRUB 等需要保留集的方法不同,CORE 通过概念原型和校准机制无需 retain set 即可维持保留性能,更符合实际部署场景。
- 两阶段训练保证稳定性: 先稳定概念表征再训练拒绝生成,避免概念识别和拒绝生成相互干扰。
局限性 / 可改进方向¶
- 概念描述由 LLM 生成,其质量直接影响遗忘精度,对不同领域/语言的泛化性有待验证
- 固定 20 个 refuser 的容量可能在更长的遗忘序列(>16 任务)中成为瓶颈
- 实验仅在 7B 规模模型上验证,未测试更大规模(13B/70B)的效果
- 未考虑遗忘请求的撤销(re-learning)场景
- 推理时的校准需要存储所有历史任务的概念激活原型,存储开销随任务数线性增长
相关工作与启发¶
- vs O3 [14]: O3 引入小参数集用随机标签做遗忘,是最强 baseline(CRR=73.03%)。但 O3 缺乏概念级语义理解,在长序列遗忘中 CRR 下降明显。CORE 通过概念分解将 CRR 提升至 90.67%,根本区别在于"理解要忘什么"。
- vs MoEAdapter [54]: 同样使用 MoE 架构,但 MoEAdapter 的路由不考虑概念语义,仅在参数层面隔离任务,导致 CRR 仅 52.82%。CORE 的概念驱动路由从语义层面确保拒绝精准性。
- vs SCRUB [28]: 需要 retain set 辅助训练,但在持续遗忘中 retain set 的分布可能随任务变化,16 个任务后 AR 仅 8.84%。CORE 无需 retain set,通过概念原型维持历史知识。
- vs Concept Bottleneck Models: CBM 传统上用于可解释分类,本文首次将概念瓶颈思想引入机器遗忘领域,创新性地将概念激活用于指导"拒绝什么"而非"分类什么"。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 概念分解驱动的持续遗忘是全新视角,概念模块+调制器+混合拒绝专家+概念路由的完整框架设计精巧
- 技术深度: ⭐⭐⭐⭐⭐ 公式清晰(Eq.1-7),两阶段训练+推理校准+对比路由损失,每个设计都有明确动机和消融验证
- 实验充分度: ⭐⭐⭐⭐ 两个 LVLM backbone(Vicuna-7B、LLaMA-2-7B),16 个持续遗忘任务(Safety QA + ImageNet-R),7 个对比方法,完整消融+可视化
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,"which concepts to forget and how to refuse" 的双问题框架贯穿全文,概念可视化增强可解释性
- 实用价值: ⭐⭐⭐⭐ 对负责任 AI 和 LVLM 内容治理有重要意义,但实际部署还需考虑更大模型规模和更多样化的遗忘场景