跳转至

AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

会议: AAAI 2026
arXiv: 2511.11299
代码: 有(arXiv页面标注有代码链接)
领域: AI安全 / 多模态VLM / 机器遗忘
关键词: 机器遗忘, 对抗扰动, 多模态大模型, 视觉概念遗忘, 隐私保护

一句话总结

提出AUVIC框架,通过对抗性扰动生成器 + 动态锚点保留机制,在MLLM中精确遗忘目标视觉概念(如特定人脸),同时避免对语义相似概念的附带遗忘,并构建了首个面向群体场景视觉概念遗忘的评测基准VCUBench。

背景与动机

多模态大语言模型(MLLMs)在海量数据上训练,这些数据可能包含敏感或受版权保护的内容。GDPR等法规要求"被遗忘权",即个人有权要求模型移除其相关数据的影响。机器遗忘(Machine Unlearning)通过选择性移除目标知识来回应这一需求,而无需对整个模型重新训练。

现有痛点: - 文本模态的遗忘研究较多,但视觉概念遗忘在MLLM中几乎未被探索 - 朴素方法(如梯度上升 GA)会导致严重的附带遗忘(Collateral Forgetting):遗忘Trump时,Biden和Boris Johnson的识别率也大幅下降(Biden recall从高位跌至11%),因为这些概念在嵌入空间中共享相似特征 - 缺乏多人场景下的遗忘评估基准——现有方法在合照中无法只遗忘目标人物

论文通过一个motivation实验清楚展示了问题:对LLaVA-1.5用GA遗忘8个概念后构建了"附带遗忘矩阵",发现视觉相似的概念更容易被连带遗忘,且目标概念的BLEU分数从0.80骤降至0.10,而外观相似者如Biden的recall也从高位跌至11%。

核心问题

如何在MLLM中精确地遗忘某个特定视觉概念(如某个公众人物的人脸),同时满足三个约束: 1. C1 - 效用保持:不破坏模型的整体性能和多模态对齐 2. C2 - 遗忘数据不足:构建多模态遗忘训练对比纯文本更困难 3. C3 - 附带遗忘:梯度方法容易过度泛化,擦除在视觉或语义上与目标相邻的概念

方法详解

整体框架

AUVIC采用Min-Max对抗优化范式,包含对抗生成器(Generator)和判别器/模型(Discriminator)两部分交替训练: - 生成器:接收输入图像,通过冻结的CLIP编码器提取视觉特征,经轻量MLP生成对抗扰动,目标是最大程度激活目标概念的表示 - 判别器(即MLLM LoRA部分):接收对抗图像和扰动文本提示,学习在对抗条件下抑制目标概念的预测,同时保留非目标概念的识别能力 - 仅更新视觉编码器的LoRA参数(rank=32, α=32),语言部分完全冻结

整体优化目标:

\[\min_\theta \max_\phi \mathbb{E}_{x \sim \mathcal{D}} [\mathcal{L}_f + \lambda \mathcal{L}_p + \beta \mathcal{L}_c]\]

关键设计

  1. 多模态对抗扰动(Multimodal Perturbations)
  2. 文本侧:通过prompt扰动增强对抗鲁棒性——生成多样化的语义等价查询(问候语变体、改写、上下文干扰),并在每个查询前加上目标概念名称引导模型注意力,放大目标激活以产生更强梯度
  3. 视觉侧:引入特征引导图像扰动模块。冻结CLIP图像编码器提取特征向量 \(h = \text{CLIP}(x)\),通过3层Linear-ReLU+tanh的轻量生成器网络 \(G_\theta\) 映射到图像形状的扰动 \(\delta_\theta \in \mathbb{R}^{3 \times H \times W}\),扰动幅度受 \(\ell_\infty\) 约束(\(\epsilon = 8/255\)),最终对抗图像 \(x' = \text{clip}(x + \delta_\theta, 0, 1)\)

  4. 动态锚点保留机制(Dynamic Anchor Preservation)

  5. 使用GPT生成K个公众人物名称候选列表
  6. 从冻结词表中提取各候选的平均token嵌入 \(\bar{e}_i\),计算与目标概念 \(\bar{e}_T\) 的余弦相似度
  7. 通过Gumbel-Softmax采样可微分地选择top-m个语义最相近的概念作为保护集 \(\mathcal{P}_{top}\)
  8. Gumbel-Softmax引入的随机性使保护集在训练过程中动态变化,增强鲁棒性

  9. 参数高效微调(Parameter-Efficient)

  10. 仅在CLIP视觉塔的 q_proj, v_proj, fc1, fc2 模块插入LoRA适配器
  11. 所有原始权重冻结,语言头完全不动——确保语言流畅性不受影响

损失函数 / 训练策略

三个损失项协同工作: - \(\mathcal{L}_f\)(目标遗忘损失):BCE损失,抑制模型对目标概念token的最大预测logit → 让模型"忘掉"目标 - \(\mathcal{L}_p\)(概念保留损失):对保护集中的每个概念,用Gumbel-Softmax加权的BCE鼓励模型保持正确识别 → 防止附带遗忘 - \(\mathcal{L}_c\)(一致性正则化):KL散度约束模型在干净输入和对抗输入上的输出分布差异 → 保持生成稳定性和下游流畅性

训练使用AdamW优化器 + ReduceLROnPlateau调度器,生成器和视觉编码器独立优化,在3× RTX 4090上训练。

实验关键数据

主实验:Trump为目标(Table 1)

方法 TFA↑ NTRA↑ GRF-F1↑ Efficacy↑ Generality↑ PPL↓
GA 84.48% 30.17% 44.46% 89.17% 63.07 16.39
PO 49.14% 54.48% 51.67% 80.42% 62.91 7.58
GA+KL 85.86% 26.55% 40.56% 90.62% 62.98 8.92
SIU 92.35% 63.49% 75.25% 100.0% 61.2% 11.26
AUVIC 93.64% 83.17% 88.10% 97.92% 63.05% 8.14

六目标平均结果(Table 2)

方法 TFA↑ NTRA↑ GRF-F1↑ Efficacy↑ Generality↑ PPL↓
GA 67.67 30.12 37.64 77.76 59.62 18.47
PO 49.87 55.91 50.19 70.71 61.62 9.86
GA+KL 77.36 32.99 43.80 82.95 60.83 11.06
AUVIC 96.99 75.34 84.94 96.82 62.69 8.34

核心对比:AUVIC的GRF-F1(88.10%)远超GA+KL(40.56%),关键在于NTRA从26-30%提升到83.17%——说明附带遗忘问题得到了本质解决。GA虽然遗忘效果不错(TFA 84.48%),但NTRA只有30.17%,说明它把很多不该忘的也忘了。

消融实验要点

变体 TFA NTRA GRF-F1
AUVIC (完整) 93.64 83.17 88.10
w/o Gumbel 89.14 64.57 72.37
w/o Adv Perturb 83.20 60.43 70.98
w/o Both 27.43 75.43 38.55
  • 对抗扰动贡献最大:去掉后GRF-F1从88.10降至70.98(-17.12),TFA降10.44个点,NTRA降22.74个点
  • Gumbel动态采样也很关键:去掉后NTRA从83.17降至64.57(-18.6),说明固定保护集不如动态采样有效
  • 两个都去掉:TFA暴跌至27.43%,说明基础框架几乎无法完成遗忘任务,两个组件是核心

亮点

  • 问题意识强:通过collateral forgetting matrix的可视化分析清晰展示了GA遗忘的系统性问题,motivation分析做得扎实
  • Min-Max对抗框架设计精巧:生成器"尽力激活目标概念",模型"学习在最难情况下抑制目标",这种对抗训练自然地提高了遗忘的鲁棒性
  • Gumbel-Softmax动态选择保护集:既保证可微分端到端训练,又引入随机性避免过拟合于固定保护对象,设计巧妙
  • 仅修改视觉侧LoRA:完全不碰语言头,天然保证语言流畅性(PPL最低),是个好的工程选择
  • VCUBench:首个面向群体场景的MLLM视觉概念遗忘评测基准,15k+样本,具有标杆意义

局限性 / 可改进方向

  • 概念类型有限:实验仅覆盖公众人物面部遗忘,未涉及物体类别、场景、动作等更广泛的视觉概念遗忘
  • 模型覆盖面窄:仅在LLaVA-1.5 (7B)上验证,未测试更大模型(13B/70B+)或其他MLLM架构(如InternVL、Qwen-VL)的适用性
  • 依赖GPT生成候选保护集:动态锚点保留需要GPT生成语义相似的公众人物列表,这引入了外部依赖,且对非人物概念适用性存疑
  • 对抗鲁棒性未充分验证:论文未测试遗忘后模型是否能抵御特定的知识提取攻击(如membership inference attack),遗忘的彻底性需进一步验证
  • Efficacy不是最高:SIU在Trump上Efficacy达100%,AUVIC为97.92%,说明在单人场景下有约2%的残留识别
  • 训练成本未充分讨论:对抗训练的迭代次数、收敛速度、多概念同时遗忘的开销均未报告
  • VCUBench规模偏小:仅5个目标概念,覆盖面有限,难以全面评估泛化能力

与相关工作的对比

  • vs GA/GA+KL(梯度上升方法):GA系列方法遗忘效果尚可但附带遗忘严重(NTRA仅26-30%),AUVIC通过对抗训练+锚点保留将NTRA提升至83%。GA+KL加入KL正则后stability有改善但NTRA反而更低(26.55%),说明简单加正则并不能解决特征空间中的概念纠缠问题
  • vs PO(偏好优化):TOFU式的偏好优化遗忘效果较弱(TFA仅49.14%),因为仅教模型说"我不知道"不能真正擦除内部表征
  • vs SIU:SIU通过视觉子空间隔离实现竞争性遗忘(TFA 92.35%),但NTRA仅63.49%,说明子空间隔离不够精确。AUVIC在保留能力(NTRA 83.17%)上大幅领先,且PPL更低
  • vs Clear(Dontsov et al., 2024):Clear是多模态遗忘的先驱,但使用合成benchmark,AUVIC的VCUBench基于真实公众人物,评估更有说服力

启发与关联

  • 与ideas中的结构保持的选择性机器遗忘高度相关:
  • AUVIC通过对抗扰动实现精确遗忘的思路,可以与结构保持遗忘的拓扑约束方法互补——前者从输入空间角度、后者从特征空间结构角度保证遗忘精度
  • AUVIC的Gumbel-Softmax动态保护集选择可以迁移到视觉基础模型(CLIP)遗忘中,保护相似概念的zero-shot能力
  • VCUBench的设计思路(单人+多人、遗忘+保留交叉评估)值得借鉴用于构建更通用的遗忘benchmark
  • 对抗训练用于遗忘是个有前景的范式:生成器作为"红队"持续挑战遗忘效果,这个思路可扩展到文本知识遗忘、多模态幻觉抑制等
  • AUVIC仅改LoRA的策略提示:对于MLLM的轻量安全对齐,冻结语言端+低秩视觉调整可能是一个通用范式

评分

  • 新颖性: ⭐⭐⭐⭐ 对抗训练用于MLLM视觉概念遗忘是新的组合,但各技术组件(对抗训练、LoRA、Gumbel-Softmax)本身不新
  • 实验充分度: ⭐⭐⭐ 仅在LLaVA-1.5上测试,仅5个目标概念,缺少大规模和跨模型验证;消融做了但缺超参数敏感性分析
  • 写作质量: ⭐⭐⭐⭐ 动机分析含可视化矩阵和实例非常直观,方法描述清晰,但benchmark部分组织略凌乱
  • 价值: ⭐⭐⭐⭐ VCUBench作为首个MLLM视觉概念遗忘benchmark有标杆意义,方法在遗忘精度上确实有显著提升