AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models¶
会议: AAAI 2026
arXiv: 2511.11299
代码: 有(arXiv页面标注有代码链接)
领域: AI安全 / 多模态VLM / 机器遗忘
关键词: 机器遗忘, 对抗扰动, 多模态大模型, 视觉概念遗忘, 隐私保护
一句话总结¶
提出AUVIC框架,通过对抗性扰动生成器 + 动态锚点保留机制,在MLLM中精确遗忘目标视觉概念(如特定人脸),同时避免对语义相似概念的附带遗忘,并构建了首个面向群体场景视觉概念遗忘的评测基准VCUBench。
背景与动机¶
多模态大语言模型(MLLMs)在海量数据上训练,这些数据可能包含敏感或受版权保护的内容。GDPR等法规要求"被遗忘权",即个人有权要求模型移除其相关数据的影响。机器遗忘(Machine Unlearning)通过选择性移除目标知识来回应这一需求,而无需对整个模型重新训练。
现有痛点: - 文本模态的遗忘研究较多,但视觉概念遗忘在MLLM中几乎未被探索 - 朴素方法(如梯度上升 GA)会导致严重的附带遗忘(Collateral Forgetting):遗忘Trump时,Biden和Boris Johnson的识别率也大幅下降(Biden recall从高位跌至11%),因为这些概念在嵌入空间中共享相似特征 - 缺乏多人场景下的遗忘评估基准——现有方法在合照中无法只遗忘目标人物
论文通过一个motivation实验清楚展示了问题:对LLaVA-1.5用GA遗忘8个概念后构建了"附带遗忘矩阵",发现视觉相似的概念更容易被连带遗忘,且目标概念的BLEU分数从0.80骤降至0.10,而外观相似者如Biden的recall也从高位跌至11%。
核心问题¶
如何在MLLM中精确地遗忘某个特定视觉概念(如某个公众人物的人脸),同时满足三个约束: 1. C1 - 效用保持:不破坏模型的整体性能和多模态对齐 2. C2 - 遗忘数据不足:构建多模态遗忘训练对比纯文本更困难 3. C3 - 附带遗忘:梯度方法容易过度泛化,擦除在视觉或语义上与目标相邻的概念
方法详解¶
整体框架¶
AUVIC采用Min-Max对抗优化范式,包含对抗生成器(Generator)和判别器/模型(Discriminator)两部分交替训练: - 生成器:接收输入图像,通过冻结的CLIP编码器提取视觉特征,经轻量MLP生成对抗扰动,目标是最大程度激活目标概念的表示 - 判别器(即MLLM LoRA部分):接收对抗图像和扰动文本提示,学习在对抗条件下抑制目标概念的预测,同时保留非目标概念的识别能力 - 仅更新视觉编码器的LoRA参数(rank=32, α=32),语言部分完全冻结
整体优化目标:
关键设计¶
- 多模态对抗扰动(Multimodal Perturbations)
- 文本侧:通过prompt扰动增强对抗鲁棒性——生成多样化的语义等价查询(问候语变体、改写、上下文干扰),并在每个查询前加上目标概念名称引导模型注意力,放大目标激活以产生更强梯度
-
视觉侧:引入特征引导图像扰动模块。冻结CLIP图像编码器提取特征向量 \(h = \text{CLIP}(x)\),通过3层Linear-ReLU+tanh的轻量生成器网络 \(G_\theta\) 映射到图像形状的扰动 \(\delta_\theta \in \mathbb{R}^{3 \times H \times W}\),扰动幅度受 \(\ell_\infty\) 约束(\(\epsilon = 8/255\)),最终对抗图像 \(x' = \text{clip}(x + \delta_\theta, 0, 1)\)
-
动态锚点保留机制(Dynamic Anchor Preservation)
- 使用GPT生成K个公众人物名称候选列表
- 从冻结词表中提取各候选的平均token嵌入 \(\bar{e}_i\),计算与目标概念 \(\bar{e}_T\) 的余弦相似度
- 通过Gumbel-Softmax采样可微分地选择top-m个语义最相近的概念作为保护集 \(\mathcal{P}_{top}\)
-
Gumbel-Softmax引入的随机性使保护集在训练过程中动态变化,增强鲁棒性
-
参数高效微调(Parameter-Efficient)
- 仅在CLIP视觉塔的
q_proj,v_proj,fc1,fc2模块插入LoRA适配器 - 所有原始权重冻结,语言头完全不动——确保语言流畅性不受影响
损失函数 / 训练策略¶
三个损失项协同工作: - \(\mathcal{L}_f\)(目标遗忘损失):BCE损失,抑制模型对目标概念token的最大预测logit → 让模型"忘掉"目标 - \(\mathcal{L}_p\)(概念保留损失):对保护集中的每个概念,用Gumbel-Softmax加权的BCE鼓励模型保持正确识别 → 防止附带遗忘 - \(\mathcal{L}_c\)(一致性正则化):KL散度约束模型在干净输入和对抗输入上的输出分布差异 → 保持生成稳定性和下游流畅性
训练使用AdamW优化器 + ReduceLROnPlateau调度器,生成器和视觉编码器独立优化,在3× RTX 4090上训练。
实验关键数据¶
主实验:Trump为目标(Table 1)¶
| 方法 | TFA↑ | NTRA↑ | GRF-F1↑ | Efficacy↑ | Generality↑ | PPL↓ |
|---|---|---|---|---|---|---|
| GA | 84.48% | 30.17% | 44.46% | 89.17% | 63.07 | 16.39 |
| PO | 49.14% | 54.48% | 51.67% | 80.42% | 62.91 | 7.58 |
| GA+KL | 85.86% | 26.55% | 40.56% | 90.62% | 62.98 | 8.92 |
| SIU | 92.35% | 63.49% | 75.25% | 100.0% | 61.2% | 11.26 |
| AUVIC | 93.64% | 83.17% | 88.10% | 97.92% | 63.05% | 8.14 |
六目标平均结果(Table 2)¶
| 方法 | TFA↑ | NTRA↑ | GRF-F1↑ | Efficacy↑ | Generality↑ | PPL↓ |
|---|---|---|---|---|---|---|
| GA | 67.67 | 30.12 | 37.64 | 77.76 | 59.62 | 18.47 |
| PO | 49.87 | 55.91 | 50.19 | 70.71 | 61.62 | 9.86 |
| GA+KL | 77.36 | 32.99 | 43.80 | 82.95 | 60.83 | 11.06 |
| AUVIC | 96.99 | 75.34 | 84.94 | 96.82 | 62.69 | 8.34 |
核心对比:AUVIC的GRF-F1(88.10%)远超GA+KL(40.56%),关键在于NTRA从26-30%提升到83.17%——说明附带遗忘问题得到了本质解决。GA虽然遗忘效果不错(TFA 84.48%),但NTRA只有30.17%,说明它把很多不该忘的也忘了。
消融实验要点¶
| 变体 | TFA | NTRA | GRF-F1 |
|---|---|---|---|
| AUVIC (完整) | 93.64 | 83.17 | 88.10 |
| w/o Gumbel | 89.14 | 64.57 | 72.37 |
| w/o Adv Perturb | 83.20 | 60.43 | 70.98 |
| w/o Both | 27.43 | 75.43 | 38.55 |
- 对抗扰动贡献最大:去掉后GRF-F1从88.10降至70.98(-17.12),TFA降10.44个点,NTRA降22.74个点
- Gumbel动态采样也很关键:去掉后NTRA从83.17降至64.57(-18.6),说明固定保护集不如动态采样有效
- 两个都去掉:TFA暴跌至27.43%,说明基础框架几乎无法完成遗忘任务,两个组件是核心
亮点¶
- 问题意识强:通过collateral forgetting matrix的可视化分析清晰展示了GA遗忘的系统性问题,motivation分析做得扎实
- Min-Max对抗框架设计精巧:生成器"尽力激活目标概念",模型"学习在最难情况下抑制目标",这种对抗训练自然地提高了遗忘的鲁棒性
- Gumbel-Softmax动态选择保护集:既保证可微分端到端训练,又引入随机性避免过拟合于固定保护对象,设计巧妙
- 仅修改视觉侧LoRA:完全不碰语言头,天然保证语言流畅性(PPL最低),是个好的工程选择
- VCUBench:首个面向群体场景的MLLM视觉概念遗忘评测基准,15k+样本,具有标杆意义
局限性 / 可改进方向¶
- 概念类型有限:实验仅覆盖公众人物面部遗忘,未涉及物体类别、场景、动作等更广泛的视觉概念遗忘
- 模型覆盖面窄:仅在LLaVA-1.5 (7B)上验证,未测试更大模型(13B/70B+)或其他MLLM架构(如InternVL、Qwen-VL)的适用性
- 依赖GPT生成候选保护集:动态锚点保留需要GPT生成语义相似的公众人物列表,这引入了外部依赖,且对非人物概念适用性存疑
- 对抗鲁棒性未充分验证:论文未测试遗忘后模型是否能抵御特定的知识提取攻击(如membership inference attack),遗忘的彻底性需进一步验证
- Efficacy不是最高:SIU在Trump上Efficacy达100%,AUVIC为97.92%,说明在单人场景下有约2%的残留识别
- 训练成本未充分讨论:对抗训练的迭代次数、收敛速度、多概念同时遗忘的开销均未报告
- VCUBench规模偏小:仅5个目标概念,覆盖面有限,难以全面评估泛化能力
与相关工作的对比¶
- vs GA/GA+KL(梯度上升方法):GA系列方法遗忘效果尚可但附带遗忘严重(NTRA仅26-30%),AUVIC通过对抗训练+锚点保留将NTRA提升至83%。GA+KL加入KL正则后stability有改善但NTRA反而更低(26.55%),说明简单加正则并不能解决特征空间中的概念纠缠问题
- vs PO(偏好优化):TOFU式的偏好优化遗忘效果较弱(TFA仅49.14%),因为仅教模型说"我不知道"不能真正擦除内部表征
- vs SIU:SIU通过视觉子空间隔离实现竞争性遗忘(TFA 92.35%),但NTRA仅63.49%,说明子空间隔离不够精确。AUVIC在保留能力(NTRA 83.17%)上大幅领先,且PPL更低
- vs Clear(Dontsov et al., 2024):Clear是多模态遗忘的先驱,但使用合成benchmark,AUVIC的VCUBench基于真实公众人物,评估更有说服力
启发与关联¶
- 与ideas中的结构保持的选择性机器遗忘高度相关:
- AUVIC通过对抗扰动实现精确遗忘的思路,可以与结构保持遗忘的拓扑约束方法互补——前者从输入空间角度、后者从特征空间结构角度保证遗忘精度
- AUVIC的Gumbel-Softmax动态保护集选择可以迁移到视觉基础模型(CLIP)遗忘中,保护相似概念的zero-shot能力
- VCUBench的设计思路(单人+多人、遗忘+保留交叉评估)值得借鉴用于构建更通用的遗忘benchmark
- 对抗训练用于遗忘是个有前景的范式:生成器作为"红队"持续挑战遗忘效果,这个思路可扩展到文本知识遗忘、多模态幻觉抑制等
- AUVIC仅改LoRA的策略提示:对于MLLM的轻量安全对齐,冻结语言端+低秩视觉调整可能是一个通用范式
评分¶
- 新颖性: ⭐⭐⭐⭐ 对抗训练用于MLLM视觉概念遗忘是新的组合,但各技术组件(对抗训练、LoRA、Gumbel-Softmax)本身不新
- 实验充分度: ⭐⭐⭐ 仅在LLaVA-1.5上测试,仅5个目标概念,缺少大规模和跨模型验证;消融做了但缺超参数敏感性分析
- 写作质量: ⭐⭐⭐⭐ 动机分析含可视化矩阵和实例非常直观,方法描述清晰,但benchmark部分组织略凌乱
- 价值: ⭐⭐⭐⭐ VCUBench作为首个MLLM视觉概念遗忘benchmark有标杆意义,方法在遗忘精度上确实有显著提升