CORE: Concept-aware Continual Unlearning for Large Vision-Language Models¶

日期: 2026-03-23
arXiv: 2603.21484
代码: 无
领域: 多模态VLM / 机器遗忘
关键词: continual unlearning, LVLM, concept decomposition, mixture-of-experts, over-refusal, concept modulator

一句话总结¶

提出 CORE（COncept-aware REfuser）框架，将 LVLM 持续遗忘问题转化为概念级精细操作——通过概念模块提取细粒度视觉属性与文本意图，概念调制器识别每个遗忘类别的概念组合，再用混合拒绝专家（mixture of refusers）基于概念相关性路由生成精准拒绝响应，在 16 个持续遗忘任务序列中同时避免不相关拒绝和过度拒绝。

研究背景与动机¶

领域现状: LVLM（如 MiniGPT、LLaVA）通过大规模多模态预训练取得了优异性能，但预训练数据常包含不当或敏感的视觉-语言对（武器、暴力等），需要通过机器遗忘（machine unlearning）移除特定知识。实践中，删除请求是按序到达的（continual unlearning），而非一次性处理。
现有痛点: 从头重训不可行（预训练数据不可用 + 计算代价巨大）。已有遗忘方法（梯度上升、随机标签训练）在单任务上尚可，但顺序遗忘会反复扭曲共享表征，产生虚假关联——模型将视觉-语言模式的表面线索误认为拒绝信号，导致两类错误：(a) 不相关拒绝：新任务遗忘覆盖旧任务的拒绝模式，对旧遗忘任务生成语义不匹配的拒绝；(b) 过度拒绝：对正常查询也触发拒绝行为。
核心矛盾: 多模态表征的纠缠性使得编辑特定知识会连带影响其他信息。持续遗忘进一步加剧纠缠，即使引入 retain set 也无法完全缓解——现有方法在 16 个任务后 AR 可降至 8.84%（几乎对所有输入都拒绝）。
本文要解决什么: 如何在持续遗忘序列中精准移除目标知识，同时保持对保留数据和通用任务的正常响应能力？
切入角度: 从概念分解（concept decomposition）入手——将粗粒度的"遗忘某类数据"分解为细粒度的"遗忘哪些视觉属性 × 文本意图的组合"，使拒绝行为有明确的语义锚定。
核心 idea: 构建概念模块提取视觉/文本概念激活，用概念调制器区分各遗忘类别的概念组合，通过混合拒绝专家（refusers）生成概念对齐的拒绝，并设计跨任务路由机制复用/分配 refuser，推理时用校准机制防止过度拒绝。

方法详解¶

整体框架¶

CORE 框架由三大组件构成：(1) 概念识别与精炼——概念模块 + 概念调制器；(2) 概念感知的拒绝生成——混合拒绝专家 + 概念相关性路由；(3) 推理时拒绝校准。训练采用两阶段策略：先训概念模块和调制器，再训路由器和拒绝专家。预训练视觉编码器和语言模型参数始终冻结。

关键设计¶

1. 概念模块（Concept Modules）¶

做什么: 为每个遗忘类别 \(k\) 构建视觉属性和文本意图的概念集合 \(\mathcal{C}_{\text{q},k}\)（各 20 个概念描述），通过概念模块 \(\bm{\mathcal{E}}_{\text{q},k}\) 生成概念激活向量，衡量输入与各概念的对齐程度。
核心思路: 所有任务的概念模块输出拼接形成完整的概念激活：

\[E^t_{\text{q},i} = \bigoplus_{k \in \mathcal{K}^{1:t}} \bm{\mathcal{E}}_{\text{q},k}(x^t_{\text{q},i})\]

用预训练编码器（如 CLIP）计算的相似度作为监督目标，最大化概念激活与目标的余弦相似度：

\[\mathcal{L}_{\text{con}} = -\sum_{\text{q} \in \{\text{img},\text{txt}\}} \sum_{i=1}^{N^t} \text{sim}(E^t_{\text{q},i}, \hat{E}_{\text{q},i})\]

设计动机: 概念由 LLM 生成的文本描述定义（如"demonstrators raising placards""flame flickering"），使激活具有可解释性；用 CLIP 做语义对齐确保概念模块学到有意义的表征。

2. 概念调制器（Concept Modulator）¶

做什么: 接收多模态概念激活 \((E_{\text{img},i}, E_{\text{txt},i})\)，学习对概念进行重加权，强调与当前遗忘类别相关的概念、抑制无关语义。
核心思路: 调制器 \(\bm{\mathcal{M}}\) 通过最小化分类交叉熵 \(\mathcal{L}_{\text{mod}}\) 学习遗忘类别识别，输出权重 \(\{m_k\}\) 重加权概念激活：

\[\bar{E}^t_{\text{q},i} = \bigoplus_{k \in \mathcal{K}^{1:t}} m_k \cdot \bm{\mathcal{E}}_{\text{q},k}(x^t_{\text{q},i})\]

同时利用历史任务的特征原型（prototypes）防止灾难性遗忘。 - 设计动机: 随着任务增多，不同遗忘类别的概念出现语义重叠，直接使用原始激活会导致无关概念被高度激活。调制器通过学习类别-概念的关联来消歧，实验表明去掉调制器后 CRR 从 88.14% 骤降至 54.53%。

3. 混合拒绝专家与概念相关性路由¶

做什么: 维护 \(N_R = 20\) 个拒绝专家（refusers）\(\{\mathcal{V}_j\}_{j=1}^{N_R}\)，每个是特化的连接模块，变换视觉特征以引导语言模型生成概念感知的拒绝响应。路由器 \(\mathcal{R}\) 基于精炼后的概念激活计算各 refuser 的贡献权重。
核心思路: Refuser 混合输出添加到预训练连接模块的输出上：

\[\Delta\mathcal{P}(x^t_{\text{img},i}) = \sum_{j=1}^{N_R} \alpha_j \cdot \mathcal{V}_j(x^t_{\text{img},i})\]

跨任务路由通过计算当前任务与历史任务的概念相关性分数来决定 refuser 复用/分配：

\[r^{t'} = \sigma\left(\text{sim}(\bar{E}^t_{\text{img}}, \bar{E}^{t'}_{\text{img}}) \cdot \text{sim}(\bar{E}^t_{\text{txt}}, \bar{E}^{t'}_{\text{txt}})\right)\]

基于相关性的对比损失引导路由器对相似任务复用 refuser、对不相关任务使用不同 refuser：

\[\mathcal{L}_{\text{ref}} = \sum_{t'=1}^{t-1}\left[r^{t'} \cdot \ell_+(F^t, F^{t'}) + (1-r^{t'}) \cdot \ell_-(F^t, F^{t'})\right]\]

设计动机: 固定数量的 refuser 池配合动态路由，避免为每个新任务引入新参数，同时通过概念相关性确保语义一致的任务共享拒绝行为，语义不同的任务使用不同 refuser，从根本上防止跨任务干扰。

损失函数 / 训练策略¶

两阶段训练（每个遗忘任务到来时）：

阶段一（概念学习）: 优化概念模块和调制器，损失为 \(\mathcal{L}_{\text{con}} + \mathcal{L}_{\text{mod}}\)，建立可靠的概念预测。
阶段二（拒绝生成）: 优化路由器和拒绝专家，损失为 \(\mathcal{L}_{\text{ce}} + \mathcal{L}_{\text{ref}}\)，生成概念感知的拒绝响应。

推理时拒绝校准: 计算输入与所有已遗忘任务的最高概念相关性分数 \(\beta \in [0,1]\)，按此缩放 refuser 贡献：

\[\mathcal{P}(\bar{x}_{\text{img}}) + \beta \cdot \Delta\mathcal{P}(\bar{x}_{\text{img}})\]

对非遗忘输入 \(\beta\) 接近 0，自动抑制不必要的拒绝。去掉校准后模型 AR 从 85.03% 暴跌至 4.11%。

实验关键数据¶

主实验¶

设置: Safety QA（6 种安全类型 × 10 类 → 12 个任务）+ ImageNet-R（80 类 → 4 个任务），共 16 个顺序遗忘任务。评估指标：Specificity（S，通用能力保持）、Answer Rate（AR，保留数据非拒绝率）、Context-aware Refusal Rate（CRR，遗忘数据语义对齐拒绝率）、Refusal Gap（\(\Delta_{RR}\)，不精确拒绝程度）。

表1: Vicuna-7B 结果（Last，完成全部16个任务后）

方法	S↑	AR↑	CRR↑	\(\Delta_{RR}\)↓
EWC	76.22	24.90	51.01	35.38
LwF	72.09	43.12	41.01	33.13
GMM	62.34	9.34	56.83	37.43
SCRUB	63.38	8.84	57.69	36.95
MoEAdapter	94.46	54.25	52.82	31.98
O3	92.85	81.76	73.03	9.03
CORE（Ours）	96.54	88.02	90.67	3.74

CORE 在 AR 上领先 O3 达 6.26%，在 CRR 上领先 17.64%，\(\Delta_{RR}\) 仅 3.74（O3 为 9.03），几乎所有拒绝都是语义精准的。

表2: LLaMA-2-7B 结果（Last）

方法	S↑	AR↑	CRR↑	\(\Delta_{RR}\)↓
O3	79.75	66.73	76.74	7.72
CORE（Ours）	97.26	84.41	84.54	6.95

在不同 LVLM backbone 上 CORE 依然显著优于所有对比方法，AR 领先 O3 达 17.68%。

消融实验¶

表3: 三个核心组件的消融（Vicuna，Avg）

MOD	ACT	CAL	S↑	AR↑	CRR↑	\(\Delta_{RR}\)↓
✓	✓	✓	97.64	86.74	88.14	8.38
✗	✓	✓	93.10	74.31	83.95	8.17
✓	✗	✓	93.82	86.90	54.53	33.81
✓	✓	✗	37.71	4.11	86.09	10.79

去掉 MOD（概念调制器）：CRR 小幅下降但 AR 降 12.43%，说明概念消歧对保留能力至关重要。
去掉 ACT（概念相关性路由）：CRR 从 88.14% 骤降至 54.53%，\(\Delta_{RR}\) 飙升至 33.81，拒绝变得不精准。
去掉 CAL（推理校准）：AR 从 86.74% 暴跌至 4.11%，模型几乎对所有输入都拒绝，说明校准是防止过度拒绝的关键。

关键发现¶

传统方法（EWC、LwF、GMM、SCRUB）在 16 个任务后 AR 可低至 8.84%，基本丧失正常应答能力
MoEAdapter 虽保持通用能力（S=94.46），但 CRR 仅 52.82%，一半以上拒绝不精准
CORE 在整个遗忘序列中保持稳定的 CRR 曲线（Figure 3），不随任务增多而衰退
概念可视化（Figure 6）表明调制器能精准激活"demonstrators raising placards""flame flickering"等语义相关概念，无调制器时大量无关概念被激活
定性分析（Figure 5）显示对比方法在后续任务中对保留样本产生虚假拒绝（如将分类任务误判为遗忘类别），CORE 始终生成语境恰当的响应

亮点与洞察¶

概念级操作 vs 样本级操作: 将视觉-语言对分解为原子概念组合（视觉属性 × 文本意图），实现了可解释、可追溯的遗忘——不只是"忘了这张图"，而是"忘了武器外观+暴力意图的组合"。这是 continual unlearning 领域的全新视角。
固定 refuser 池 + 动态路由 = 可扩展: 无需为每个新任务引入新参数，20 个 refuser 通过概念相关性路由即可覆盖 16 个任务，且每个样本仅激活 2 个 refuser，计算开销可控。
推理时校准的重要性: 单靠训练阶段无法解决过度拒绝（无 CAL 时 AR=4.11%），推理时的 \(\beta\) 校准是优雅的解决方案——对遗忘相关输入全力拒绝，对无关输入自动"关闭"refuser。
不需要 retain set: 与 SCRUB 等需要保留集的方法不同，CORE 通过概念原型和校准机制无需 retain set 即可维持保留性能，更符合实际部署场景。
两阶段训练保证稳定性: 先稳定概念表征再训练拒绝生成，避免概念识别和拒绝生成相互干扰。

局限性 / 可改进方向¶

概念描述由 LLM 生成，其质量直接影响遗忘精度，对不同领域/语言的泛化性有待验证
固定 20 个 refuser 的容量可能在更长的遗忘序列（>16 任务）中成为瓶颈
实验仅在 7B 规模模型上验证，未测试更大规模（13B/70B）的效果
未考虑遗忘请求的撤销（re-learning）场景
推理时的校准需要存储所有历史任务的概念激活原型，存储开销随任务数线性增长

评分¶

新颖性: ⭐⭐⭐⭐⭐ 概念分解驱动的持续遗忘是全新视角，概念模块+调制器+混合拒绝专家+概念路由的完整框架设计精巧
技术深度: ⭐⭐⭐⭐⭐ 公式清晰（Eq.1-7），两阶段训练+推理校准+对比路由损失，每个设计都有明确动机和消融验证
实验充分度: ⭐⭐⭐⭐ 两个 LVLM backbone（Vicuna-7B、LLaMA-2-7B），16 个持续遗忘任务（Safety QA + ImageNet-R），7 个对比方法，完整消融+可视化
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，"which concepts to forget and how to refuse" 的双问题框架贯穿全文，概念可视化增强可解释性
实用价值: ⭐⭐⭐⭐ 对负责任 AI 和 LVLM 内容治理有重要意义，但实际部署还需考虑更大模型规模和更多样化的遗忘场景