SineProject: Machine Unlearning for Stable Vision–Language Alignment¶
会议: CVPR 2026
arXiv: 2511.18444
代码: 有
领域: AI安全
关键词: 机器遗忘, 多模态大模型, 视觉-语言对齐, 投影层稳定性, Jacobian条件数
一句话总结¶
针对多模态大模型(MLLM)在机器遗忘过程中投影层 Jacobian 严重病态导致视觉-语言对齐漂移的问题,提出 SineProject——通过对投影层权重施加正弦调制(sin(ΔW))来约束参数范围至 [-1,1],从而将 Jacobian 条件数降低 3-4 个数量级,在完全遗忘目标知识的同时将良性查询误拒率(SARR)降低 15%。
研究背景与动机¶
1. 领域现状¶
多模态大模型(MLLMs,如 LLaVA、BLIP-2、GPT-4V)正日益部署于医疗诊断、内容审核等安全敏感场景。隐私法规(如 GDPR)和安全需求要求模型能选择性遗忘特定知识(不安全内容、隐私信息),而无需完全重新训练。
2. 痛点¶
现有遗忘方法主要为纯文本 LLM 设计(如 Gradient Ascent、KL 散度最小化、Preference Optimization),当直接迁移到 MLLM 时灾难性失败:
- SafeEraser 报告基于梯度的方法在 LLaVA-1.5-7B 上的安全回答拒绝率(SARR)高达 100%——模型不仅拒绝有害查询,也拒绝所有良性查询
- MLLMU-Bench 显示隐私实体遗忘任务中模型能力严重退化
3. 核心矛盾¶
MLLM 不同于纯文本 LLM,其视觉和语言表示通过精心训练的投影层(projector)实现几何耦合对齐。遗忘操作必须在擦除目标知识的同时,保持这种跨模态几何对齐——这是一对根本性矛盾。
4. 要解决什么¶
作者将失败的根源归结为对齐漂移(Alignment Drift)——遗忘过程中视觉-语言几何对齐的系统性退化,表现为三个关联现象:
- 频谱不稳定:投影层 Jacobian 条件数在遗忘中增长 3-4 个数量级
- 模态解耦:视觉与语言嵌入偏离最优对齐
- 表示坍缩:模型丧失区分有害/良性内容的能力,导致无差别拒绝
5. 切入角度¶
现有方法修改的是语言骨干网络或视觉编码器,忽视了投影层这一跨模态信息流动的唯一通道。作者将关注点转移到投影层的 Jacobian 条件特性上。
6. 核心 Idea¶
对投影层的冻结权重 W 附加可训练参数 ΔW,并对 ΔW 施加正弦变换 sin(ΔW),使更新始终有界于 [-1,1]。这等价于一种隐式频谱正则化器,约束了 Jacobian 的谱特性,防止遗忘过程中条件数爆炸。
方法详解¶
整体框架¶
SineProject 的核心架构非常简洁:在标准 MLLM(视觉编码器 + 投影层 MLP + 语言模型)架构上,仅修改投影层的参数化方式,不改变架构和损失函数,可与任何现有遗忘流水线兼容。
基础 MLLM 投影层为两层 MLP:\(F(x) = W_2 \phi(W_1 x + b_1) + b_2\),其中 \(\phi\) 为 GELU/ReLU 激活函数。
关键设计¶
设计 1:正弦投影层(Sine Projector)
- 功能:将投影层权重矩阵用正弦函数包裹
- 核心思路:定义正则化 MLP \(G(x) = \sin(W_2)\phi(\sin(W_1)x + b_1) + b_2\),sin(·) 逐元素作用
- 设计动机:sin/cos 值域为 [-1,1],这保证了 Jacobian 中 \(\nabla_{W_1}G\)、\(\nabla_{W_2}G\)、\(\nabla_{b_2}G\) 三个块均有界(Theorem 3.1),仅 \(\nabla_{b_1}G\) 可能无界。相比之下,标准 MLP 的 Jacobian 在 \(W_1, W_2\) 增大时多个块均可任意增长
设计 2:预训练知识保持的微调策略
- 功能:冻结原始预训练权重 W,引入随机初始化的 ΔW,仅优化 ΔW
- 核心思路:最终权重 = \(W + \sin(\Delta W)\),即 \((W_2 + \sin(\Delta W_2))\phi((W_1 + \sin(\Delta W_1))x + b_1) + b_2\)
- 设计动机:直接对预训练权重施加 sin 变换会覆盖已学知识。通过冻结 W 并仅优化 sin(ΔW) 的增量,既保留预训练知识又获得频谱正则化收益。本质上是全稠密适配器(fully dense adapter)
设计 3:提示解耦(Prompt Decoupling, PD)
- 功能:在遗忘阶段将纯文本样本和多模态样本分别用不同损失处理
- 核心思路:继承自 SafeEraser 的技术,\(D_f^{(text)}\) 和 \(D_f^{(mm)}\) 分别计算损失
- 设计动机:缓解过度遗忘问题,实验表明 PD 对 SARR 有显著改善
损失函数 / 训练策略¶
遗忘目标函数为标准的 forget-retain 权衡:\(\theta^* = \arg\min_\theta \mathcal{L}_{forget}(\theta; D_f) + \lambda \mathcal{L}_{retain}(\theta; D_r)\)
- \(\mathcal{L}_{forget}\):可采用 Gradient Descent、KL 散度最小化或 Preference Optimization(主实验用 PO+PD)
- \(\mathcal{L}_{retain}\):保持 retain set 上的性能
- 训练时冻结视觉编码器,训练 LoRA 适配器(rank 32)和 sine-projector(ΔW₁, ΔW₂, b₁, b₂)
- 参数开销 <1%
实验关键数据¶
主实验¶
表 1:SafeEraser 基准(安全遗忘)
在 LLaVA-v1.5-7B 和 13B 上评估,Forget Quality 衡量遗忘效果(ASR↓、RR↑),Model Utility 衡量保留能力(ROUGE↑、GPT-Eval↑、Specificity↑、SARR↓):
| 方法 | ASR(Eff.)↓ | RR(Eff.)↑ | ASR(Gen.)↓ | RR(Gen.)↑ | ROUGE↑ | GPT↑ | Spec.↑ | SARR↓ |
|---|---|---|---|---|---|---|---|---|
| LLaVA-7B | ||||||||
| GA | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 15.3 | 100 |
| GD+PD | 2.8 | 0.0 | 0.5 | 0.4 | 61.6 | 82.8 | 50.7 | 28.0 |
| PO (无PD) | 0.1 | 100 | 0.1 | 100 | 65.2 | 85.4 | 63.7 | 100 |
| SafeEraser (PO+PD) | 0.2 | 100 | 0.2 | 99.7 | 65.4 | 86.2 | 64.4 | 30.3 |
| SineProject (PO+PD) | 0.1 | 100 | 0.1 | 99.9 | 65.8 | 86.3 | 65.2 | 25.8 |
| LLaVA-13B | ||||||||
| SafeEraser (PO+PD) | 2.2 | 99.5 | 2.4 | 99.1 | 62.7 | 81.7 | 65.3 | 27.3 |
| SineProject (PO+PD) | 1.6 | 99.8 | 0.8 | 99.9 | 63.9 | 82.9 | 65.4 | 25.1 |
核心结论:SineProject 在保持 100% 遗忘的同时,SARR 从 30.3% 降至 25.8%(7B)、从 27.3% 降至 25.1%(13B),良性查询误拒大幅减少。
表 2:MLLMU-Bench 基准(隐私遗忘,LLaVA-7B,综合得分 Avg.↑)
| 方法 | 5% 删除 Avg.↑ | 10% 删除 Avg.↑ | 15% 删除 Avg.↑ |
|---|---|---|---|
| GA | 45.7 | 50.4 | 50.9 |
| Grad. Diff. | 50.2 | 56.8 | 51.4 |
| NPO | 51.8 | 44.5 | 53.5 |
| MMUnlearner | 53.9 | 52.4 | 51.8 |
| SineProject (NPO) | 62.1 | 68.4 | 66.2 |
核心结论:SineProject 在所有删除比例下综合得分均大幅领先(比最强基线 MMUnlearner 高 8-16 分),且随删除比例增大优势更明显,验证了几何稳定性对可扩展遗忘的重要性。
消融实验¶
- 函数选择:sin(ΔW) 条件数 5.40×10²,远优于 spectral norm(1.15×10⁵)、weight clipping、LoRA、tanh、sigmoid;SARR 25.8% vs 34.1%
- 层级必要性:W₁+W₂ 联合调制(25.8%)优于仅 W₂(26.5%)
- 损失泛化:在 GD、KL、PO 三种损失下均稳定降低 SARR 0.8-4.5%,RR 保持 >99%
- 鲁棒性:α∈[1,300] 范围内 SARR 变化 <0.3%(p=0.83);10 个种子下方差降低 74%
- 架构泛化:MLP 和注意力投影器上均降低 SARR 14.9-20.1%
关键发现¶
- 几何稳定性是核心:SafeEraser 的 W₂ Jacobian 条件数在遗忘过程中超过 10⁶,MIR 偏离最优区间至 >4.5;SineProject 控制条件数 <10³,MIR 稳定在 ~2.7(最优区间 [2.5, 3.0] 内)
- 频谱动态:基线的最大奇异值 σ_max 爆炸式增长、最小奇异值 σ_min 坍缩;SineProject 二者均保持稳定
- 条件数与 SARR 强相关:r=0.89(p<0.01),验证了理论分析的实际意义
- 训练动态反转:基线条件数恶化 3.3×,SineProject 改善 13.4×
亮点与洞察¶
- 问题定位精准:首次系统分析了多模态遗忘中"对齐漂移"的机制,通过 Jacobian 条件数将抽象的对齐崩溃转化为可量化、可诊断的频谱指标
- 方法极简优雅:仅需一个 sin(·) 变换,不改架构不改损失,参数开销 <1%,即可获得 3-4 个数量级的条件数改善
- 理论与实验闭环:Theorem 3.1 严格证明 sin projector 的 Jacobian 有界性,实验精确验证了理论预测
- 即插即用:与 GD/KL/PO 等多种遗忘损失兼容,可直接嵌入现有遗忘流水线
局限与展望¶
- 架构范围:主要针对 MLP 投影层优化,虽在 Q-Former/Resampler 上有泛化实验,但对 Flamingo 式深度交错跨模态交互架构尚未验证
- 语义纠缠:几何条件化保持对齐结构但不解决相关概念的语义纠缠——遗忘超过 25% 知识库时出现与条件化无关的容量-遗忘权衡
- 认证遗忘保证缺失:遗忘后的对抗微调可能部分恢复被遗忘信息,需结合认证防御机制
- 仅作用于投影层:未探索 sin 调制与 LoRA 适配器的联合优化(作者将此列为 future work)
相关工作与启发¶
- 机器遗忘基准:TOFU、MUSE(单模态)→ SafeEraser、MLLMU-Bench(多模态)——多模态遗忘的评估体系正在快速完善
- 多模态对齐几何:CLIP/LiT 的对比学习对齐 → 本文揭示这种对齐在遗忘中极其脆弱
- NTK 理论应用:将 Jacobian 条件数分析从预训练/微调扩展到遗忘场景,是 NTK 视角的新应用
- 启发:有界变换的思路可能推广到其他需要"稳定修改"的场景(如持续学习、模型编辑)
评分¶
⭐⭐⭐⭐ 问题切入极精准、方法极简且有严格理论支撑,在两个基准上全面 SOTA;唯一遗憾是仅作用于投影层,对更广泛架构的适用性有待验证。
相关论文¶
- [NeurIPS 2025] SIMU: Selective Influence Machine Unlearning
- [ICML 2025] NegMerge: Sign-Consensual Weight Merging for Machine Unlearning
- [CVPR 2026] Designing to Forget: Deep Semi-parametric Models for Unlearning
- [NeurIPS 2025] A Reliable Cryptographic Framework for Empirical Machine Unlearning Evaluation
- [ACL 2025] UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models