AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models¶

会议: AAAI 2026
arXiv: 2511.11299
代码: 有（arXiv页面标注有代码链接）
领域: AI安全 / 多模态VLM / 机器遗忘
关键词: 机器遗忘, 对抗扰动, 多模态大模型, 视觉概念遗忘, 隐私保护

一句话总结¶

提出AUVIC框架，通过对抗性扰动生成器 + 动态锚点保留机制，在MLLM中精确遗忘目标视觉概念（如特定人脸），同时避免对语义相似概念的附带遗忘，并构建了首个面向群体场景视觉概念遗忘的评测基准VCUBench。

背景与动机¶

多模态大语言模型（MLLMs）在海量数据上训练，这些数据可能包含敏感或受版权保护的内容。GDPR等法规要求"被遗忘权"，即个人有权要求模型移除其相关数据的影响。机器遗忘（Machine Unlearning）通过选择性移除目标知识来回应这一需求，而无需对整个模型重新训练。

现有痛点： - 文本模态的遗忘研究较多，但视觉概念遗忘在MLLM中几乎未被探索 - 朴素方法（如梯度上升 GA）会导致严重的附带遗忘（Collateral Forgetting）：遗忘Trump时，Biden和Boris Johnson的识别率也大幅下降（Biden recall从高位跌至11%），因为这些概念在嵌入空间中共享相似特征 - 缺乏多人场景下的遗忘评估基准——现有方法在合照中无法只遗忘目标人物

论文通过一个motivation实验清楚展示了问题：对LLaVA-1.5用GA遗忘8个概念后构建了"附带遗忘矩阵"，发现视觉相似的概念更容易被连带遗忘，且目标概念的BLEU分数从0.80骤降至0.10，而外观相似者如Biden的recall也从高位跌至11%。

核心问题¶

如何在MLLM中精确地遗忘某个特定视觉概念（如某个公众人物的人脸），同时满足三个约束： 1. C1 - 效用保持：不破坏模型的整体性能和多模态对齐 2. C2 - 遗忘数据不足：构建多模态遗忘训练对比纯文本更困难 3. C3 - 附带遗忘：梯度方法容易过度泛化，擦除在视觉或语义上与目标相邻的概念

方法详解¶

整体框架¶

AUVIC采用Min-Max对抗优化范式，包含对抗生成器（Generator）和判别器/模型（Discriminator）两部分交替训练： - 生成器：接收输入图像，通过冻结的CLIP编码器提取视觉特征，经轻量MLP生成对抗扰动，目标是最大程度激活目标概念的表示 - 判别器（即MLLM LoRA部分）：接收对抗图像和扰动文本提示，学习在对抗条件下抑制目标概念的预测，同时保留非目标概念的识别能力 - 仅更新视觉编码器的LoRA参数（rank=32, α=32），语言部分完全冻结

整体优化目标：

\[\min_\theta \max_\phi \mathbb{E}_{x \sim \mathcal{D}} [\mathcal{L}_f + \lambda \mathcal{L}_p + \beta \mathcal{L}_c]\]

关键设计¶

多模态对抗扰动（Multimodal Perturbations）
文本侧：通过prompt扰动增强对抗鲁棒性——生成多样化的语义等价查询（问候语变体、改写、上下文干扰），并在每个查询前加上目标概念名称引导模型注意力，放大目标激活以产生更强梯度
视觉侧：引入特征引导图像扰动模块。冻结CLIP图像编码器提取特征向量 \(h = \text{CLIP}(x)\)，通过3层Linear-ReLU+tanh的轻量生成器网络 \(G_\theta\) 映射到图像形状的扰动 \(\delta_\theta \in \mathbb{R}^{3 \times H \times W}\)，扰动幅度受 \(\ell_\infty\) 约束（\(\epsilon = 8/255\)），最终对抗图像 \(x' = \text{clip}(x + \delta_\theta, 0, 1)\)
动态锚点保留机制（Dynamic Anchor Preservation）
使用GPT生成K个公众人物名称候选列表
从冻结词表中提取各候选的平均token嵌入 \(\bar{e}_i\)，计算与目标概念 \(\bar{e}_T\) 的余弦相似度
通过Gumbel-Softmax采样可微分地选择top-m个语义最相近的概念作为保护集 \(\mathcal{P}_{top}\)
Gumbel-Softmax引入的随机性使保护集在训练过程中动态变化，增强鲁棒性
参数高效微调（Parameter-Efficient）
仅在CLIP视觉塔的 q_proj, v_proj, fc1, fc2 模块插入LoRA适配器
所有原始权重冻结，语言头完全不动——确保语言流畅性不受影响

损失函数 / 训练策略¶

三个损失项协同工作： - \(\mathcal{L}_f\)（目标遗忘损失）：BCE损失，抑制模型对目标概念token的最大预测logit → 让模型"忘掉"目标 - \(\mathcal{L}_p\)（概念保留损失）：对保护集中的每个概念，用Gumbel-Softmax加权的BCE鼓励模型保持正确识别 → 防止附带遗忘 - \(\mathcal{L}_c\)（一致性正则化）：KL散度约束模型在干净输入和对抗输入上的输出分布差异 → 保持生成稳定性和下游流畅性

训练使用AdamW优化器 + ReduceLROnPlateau调度器，生成器和视觉编码器独立优化，在3× RTX 4090上训练。

实验关键数据¶

主实验：Trump为目标（Table 1）¶

方法	TFA↑	NTRA↑	GRF-F1↑	Efficacy↑	Generality↑	PPL↓
GA	84.48%	30.17%	44.46%	89.17%	63.07	16.39
PO	49.14%	54.48%	51.67%	80.42%	62.91	7.58
GA+KL	85.86%	26.55%	40.56%	90.62%	62.98	8.92
SIU	92.35%	63.49%	75.25%	100.0%	61.2%	11.26
AUVIC	93.64%	83.17%	88.10%	97.92%	63.05%	8.14

六目标平均结果（Table 2）¶

方法	TFA↑	NTRA↑	GRF-F1↑	Efficacy↑	Generality↑	PPL↓
GA	67.67	30.12	37.64	77.76	59.62	18.47
PO	49.87	55.91	50.19	70.71	61.62	9.86
GA+KL	77.36	32.99	43.80	82.95	60.83	11.06
AUVIC	96.99	75.34	84.94	96.82	62.69	8.34

核心对比：AUVIC的GRF-F1（88.10%）远超GA+KL（40.56%），关键在于NTRA从26-30%提升到83.17%——说明附带遗忘问题得到了本质解决。GA虽然遗忘效果不错（TFA 84.48%），但NTRA只有30.17%，说明它把很多不该忘的也忘了。

消融实验要点¶

变体	TFA	NTRA	GRF-F1
AUVIC (完整)	93.64	83.17	88.10
w/o Gumbel	89.14	64.57	72.37
w/o Adv Perturb	83.20	60.43	70.98
w/o Both	27.43	75.43	38.55

对抗扰动贡献最大：去掉后GRF-F1从88.10降至70.98（-17.12），TFA降10.44个点，NTRA降22.74个点
Gumbel动态采样也很关键：去掉后NTRA从83.17降至64.57（-18.6），说明固定保护集不如动态采样有效
两个都去掉：TFA暴跌至27.43%，说明基础框架几乎无法完成遗忘任务，两个组件是核心

亮点¶

问题意识强：通过collateral forgetting matrix的可视化分析清晰展示了GA遗忘的系统性问题，motivation分析做得扎实
Min-Max对抗框架设计精巧：生成器"尽力激活目标概念"，模型"学习在最难情况下抑制目标"，这种对抗训练自然地提高了遗忘的鲁棒性
Gumbel-Softmax动态选择保护集：既保证可微分端到端训练，又引入随机性避免过拟合于固定保护对象，设计巧妙
仅修改视觉侧LoRA：完全不碰语言头，天然保证语言流畅性（PPL最低），是个好的工程选择
VCUBench：首个面向群体场景的MLLM视觉概念遗忘评测基准，15k+样本，具有标杆意义

局限性 / 可改进方向¶

概念类型有限：实验仅覆盖公众人物面部遗忘，未涉及物体类别、场景、动作等更广泛的视觉概念遗忘
模型覆盖面窄：仅在LLaVA-1.5 (7B)上验证，未测试更大模型（13B/70B+）或其他MLLM架构（如InternVL、Qwen-VL）的适用性
依赖GPT生成候选保护集：动态锚点保留需要GPT生成语义相似的公众人物列表，这引入了外部依赖，且对非人物概念适用性存疑
对抗鲁棒性未充分验证：论文未测试遗忘后模型是否能抵御特定的知识提取攻击（如membership inference attack），遗忘的彻底性需进一步验证
Efficacy不是最高：SIU在Trump上Efficacy达100%，AUVIC为97.92%，说明在单人场景下有约2%的残留识别
训练成本未充分讨论：对抗训练的迭代次数、收敛速度、多概念同时遗忘的开销均未报告
VCUBench规模偏小：仅5个目标概念，覆盖面有限，难以全面评估泛化能力

与相关工作的对比¶

vs GA/GA+KL（梯度上升方法）：GA系列方法遗忘效果尚可但附带遗忘严重（NTRA仅26-30%），AUVIC通过对抗训练+锚点保留将NTRA提升至83%。GA+KL加入KL正则后stability有改善但NTRA反而更低（26.55%），说明简单加正则并不能解决特征空间中的概念纠缠问题
vs PO（偏好优化）：TOFU式的偏好优化遗忘效果较弱（TFA仅49.14%），因为仅教模型说"我不知道"不能真正擦除内部表征
vs SIU：SIU通过视觉子空间隔离实现竞争性遗忘（TFA 92.35%），但NTRA仅63.49%，说明子空间隔离不够精确。AUVIC在保留能力（NTRA 83.17%）上大幅领先，且PPL更低
vs Clear（Dontsov et al., 2024）：Clear是多模态遗忘的先驱，但使用合成benchmark，AUVIC的VCUBench基于真实公众人物，评估更有说服力

启发与关联¶

与ideas中的结构保持的选择性机器遗忘高度相关：
AUVIC通过对抗扰动实现精确遗忘的思路，可以与结构保持遗忘的拓扑约束方法互补——前者从输入空间角度、后者从特征空间结构角度保证遗忘精度
AUVIC的Gumbel-Softmax动态保护集选择可以迁移到视觉基础模型（CLIP）遗忘中，保护相似概念的zero-shot能力
VCUBench的设计思路（单人+多人、遗忘+保留交叉评估）值得借鉴用于构建更通用的遗忘benchmark
对抗训练用于遗忘是个有前景的范式：生成器作为"红队"持续挑战遗忘效果，这个思路可扩展到文本知识遗忘、多模态幻觉抑制等
AUVIC仅改LoRA的策略提示：对于MLLM的轻量安全对齐，冻结语言端+低秩视觉调整可能是一个通用范式

评分¶

新颖性: ⭐⭐⭐⭐ 对抗训练用于MLLM视觉概念遗忘是新的组合，但各技术组件（对抗训练、LoRA、Gumbel-Softmax）本身不新
实验充分度: ⭐⭐⭐ 仅在LLaVA-1.5上测试，仅5个目标概念，缺少大规模和跨模型验证；消融做了但缺超参数敏感性分析
写作质量: ⭐⭐⭐⭐ 动机分析含可视化矩阵和实例非常直观，方法描述清晰，但benchmark部分组织略凌乱
价值: ⭐⭐⭐⭐ VCUBench作为首个MLLM视觉概念遗忘benchmark有标杆意义，方法在遗忘精度上确实有显著提升