SineProject: Machine Unlearning for Stable Vision–Language Alignment¶

会议: CVPR 2026
arXiv: 2511.18444
代码: 有
领域: AI安全
关键词: 机器遗忘, 多模态大模型, 视觉-语言对齐, 投影层稳定性, Jacobian条件数

一句话总结¶

针对多模态大模型（MLLM）在机器遗忘过程中投影层 Jacobian 严重病态导致视觉-语言对齐漂移的问题，提出 SineProject——通过对投影层权重施加正弦调制（sin(ΔW)）来约束参数范围至 [-1,1]，从而将 Jacobian 条件数降低 3-4 个数量级，在完全遗忘目标知识的同时将良性查询误拒率（SARR）降低 15%。

研究背景与动机¶

1. 领域现状¶

多模态大模型（MLLMs，如 LLaVA、BLIP-2、GPT-4V）正日益部署于医疗诊断、内容审核等安全敏感场景。隐私法规（如 GDPR）和安全需求要求模型能选择性遗忘特定知识（不安全内容、隐私信息），而无需完全重新训练。

2. 痛点¶

现有遗忘方法主要为纯文本 LLM 设计（如 Gradient Ascent、KL 散度最小化、Preference Optimization），当直接迁移到 MLLM 时灾难性失败：

SafeEraser 报告基于梯度的方法在 LLaVA-1.5-7B 上的安全回答拒绝率（SARR）高达 100%——模型不仅拒绝有害查询，也拒绝所有良性查询
MLLMU-Bench 显示隐私实体遗忘任务中模型能力严重退化

3. 核心矛盾¶

MLLM 不同于纯文本 LLM，其视觉和语言表示通过精心训练的投影层（projector）实现几何耦合对齐。遗忘操作必须在擦除目标知识的同时，保持这种跨模态几何对齐——这是一对根本性矛盾。

4. 要解决什么¶

作者将失败的根源归结为对齐漂移（Alignment Drift）——遗忘过程中视觉-语言几何对齐的系统性退化，表现为三个关联现象：

频谱不稳定：投影层 Jacobian 条件数在遗忘中增长 3-4 个数量级
模态解耦：视觉与语言嵌入偏离最优对齐
表示坍缩：模型丧失区分有害/良性内容的能力，导致无差别拒绝

5. 切入角度¶

现有方法修改的是语言骨干网络或视觉编码器，忽视了投影层这一跨模态信息流动的唯一通道。作者将关注点转移到投影层的 Jacobian 条件特性上。

6. 核心 Idea¶

对投影层的冻结权重 W 附加可训练参数 ΔW，并对 ΔW 施加正弦变换 sin(ΔW)，使更新始终有界于 [-1,1]。这等价于一种隐式频谱正则化器，约束了 Jacobian 的谱特性，防止遗忘过程中条件数爆炸。

方法详解¶

整体框架¶

SineProject 的核心架构非常简洁：在标准 MLLM（视觉编码器 + 投影层 MLP + 语言模型）架构上，仅修改投影层的参数化方式，不改变架构和损失函数，可与任何现有遗忘流水线兼容。

基础 MLLM 投影层为两层 MLP：\(F(x) = W_2 \phi(W_1 x + b_1) + b_2\)，其中 \(\phi\) 为 GELU/ReLU 激活函数。

关键设计¶

设计 1：正弦投影层（Sine Projector）

功能：将投影层权重矩阵用正弦函数包裹
核心思路：定义正则化 MLP \(G(x) = \sin(W_2)\phi(\sin(W_1)x + b_1) + b_2\)，sin(·) 逐元素作用
设计动机：sin/cos 值域为 [-1,1]，这保证了 Jacobian 中 \(\nabla_{W_1}G\)、\(\nabla_{W_2}G\)、\(\nabla_{b_2}G\) 三个块均有界（Theorem 3.1），仅 \(\nabla_{b_1}G\) 可能无界。相比之下，标准 MLP 的 Jacobian 在 \(W_1, W_2\) 增大时多个块均可任意增长

设计 2：预训练知识保持的微调策略

功能：冻结原始预训练权重 W，引入随机初始化的 ΔW，仅优化 ΔW
核心思路：最终权重 = \(W + \sin(\Delta W)\)，即 \((W_2 + \sin(\Delta W_2))\phi((W_1 + \sin(\Delta W_1))x + b_1) + b_2\)
设计动机：直接对预训练权重施加 sin 变换会覆盖已学知识。通过冻结 W 并仅优化 sin(ΔW) 的增量，既保留预训练知识又获得频谱正则化收益。本质上是全稠密适配器（fully dense adapter）

设计 3：提示解耦（Prompt Decoupling, PD）

功能：在遗忘阶段将纯文本样本和多模态样本分别用不同损失处理
核心思路：继承自 SafeEraser 的技术，\(D_f^{(text)}\) 和 \(D_f^{(mm)}\) 分别计算损失
设计动机：缓解过度遗忘问题，实验表明 PD 对 SARR 有显著改善

损失函数 / 训练策略¶

遗忘目标函数为标准的 forget-retain 权衡：\(\theta^* = \arg\min_\theta \mathcal{L}_{forget}(\theta; D_f) + \lambda \mathcal{L}_{retain}(\theta; D_r)\)

\(\mathcal{L}_{forget}\)：可采用 Gradient Descent、KL 散度最小化或 Preference Optimization（主实验用 PO+PD）
\(\mathcal{L}_{retain}\)：保持 retain set 上的性能
训练时冻结视觉编码器，训练 LoRA 适配器（rank 32）和 sine-projector（ΔW₁, ΔW₂, b₁, b₂）
参数开销 <1%

实验关键数据¶

主实验¶

表 1：SafeEraser 基准（安全遗忘）

在 LLaVA-v1.5-7B 和 13B 上评估，Forget Quality 衡量遗忘效果（ASR↓、RR↑），Model Utility 衡量保留能力（ROUGE↑、GPT-Eval↑、Specificity↑、SARR↓）：

方法	ASR(Eff.)↓	RR(Eff.)↑	ASR(Gen.)↓	RR(Gen.)↑	ROUGE↑	GPT↑	Spec.↑	SARR↓
LLaVA-7B
GA	0.0	0.0	0.0	0.0	0.0	0.0	15.3	100
GD+PD	2.8	0.0	0.5	0.4	61.6	82.8	50.7	28.0
PO (无PD)	0.1	100	0.1	100	65.2	85.4	63.7	100
SafeEraser (PO+PD)	0.2	100	0.2	99.7	65.4	86.2	64.4	30.3
SineProject (PO+PD)	0.1	100	0.1	99.9	65.8	86.3	65.2	25.8
LLaVA-13B
SafeEraser (PO+PD)	2.2	99.5	2.4	99.1	62.7	81.7	65.3	27.3
SineProject (PO+PD)	1.6	99.8	0.8	99.9	63.9	82.9	65.4	25.1

核心结论：SineProject 在保持 100% 遗忘的同时，SARR 从 30.3% 降至 25.8%（7B）、从 27.3% 降至 25.1%（13B），良性查询误拒大幅减少。

表 2：MLLMU-Bench 基准（隐私遗忘，LLaVA-7B，综合得分 Avg.↑）

方法	5% 删除 Avg.↑	10% 删除 Avg.↑	15% 删除 Avg.↑
GA	45.7	50.4	50.9
Grad. Diff.	50.2	56.8	51.4
NPO	51.8	44.5	53.5
MMUnlearner	53.9	52.4	51.8
SineProject (NPO)	62.1	68.4	66.2

核心结论：SineProject 在所有删除比例下综合得分均大幅领先（比最强基线 MMUnlearner 高 8-16 分），且随删除比例增大优势更明显，验证了几何稳定性对可扩展遗忘的重要性。

消融实验¶

函数选择：sin(ΔW) 条件数 5.40×10²，远优于 spectral norm（1.15×10⁵）、weight clipping、LoRA、tanh、sigmoid；SARR 25.8% vs 34.1%
层级必要性：W₁+W₂ 联合调制（25.8%）优于仅 W₂（26.5%）
损失泛化：在 GD、KL、PO 三种损失下均稳定降低 SARR 0.8-4.5%，RR 保持 >99%
鲁棒性：α∈[1,300] 范围内 SARR 变化 <0.3%（p=0.83）；10 个种子下方差降低 74%
架构泛化：MLP 和注意力投影器上均降低 SARR 14.9-20.1%

关键发现¶

几何稳定性是核心：SafeEraser 的 W₂ Jacobian 条件数在遗忘过程中超过 10⁶，MIR 偏离最优区间至 >4.5；SineProject 控制条件数 <10³，MIR 稳定在 ~2.7（最优区间 [2.5, 3.0] 内）
频谱动态：基线的最大奇异值 σ_max 爆炸式增长、最小奇异值 σ_min 坍缩；SineProject 二者均保持稳定
条件数与 SARR 强相关：r=0.89（p<0.01），验证了理论分析的实际意义
训练动态反转：基线条件数恶化 3.3×，SineProject 改善 13.4×

亮点与洞察¶

问题定位精准：首次系统分析了多模态遗忘中"对齐漂移"的机制，通过 Jacobian 条件数将抽象的对齐崩溃转化为可量化、可诊断的频谱指标
方法极简优雅：仅需一个 sin(·) 变换，不改架构不改损失，参数开销 <1%，即可获得 3-4 个数量级的条件数改善
理论与实验闭环：Theorem 3.1 严格证明 sin projector 的 Jacobian 有界性，实验精确验证了理论预测
即插即用：与 GD/KL/PO 等多种遗忘损失兼容，可直接嵌入现有遗忘流水线

局限与展望¶

架构范围：主要针对 MLP 投影层优化，虽在 Q-Former/Resampler 上有泛化实验，但对 Flamingo 式深度交错跨模态交互架构尚未验证
语义纠缠：几何条件化保持对齐结构但不解决相关概念的语义纠缠——遗忘超过 25% 知识库时出现与条件化无关的容量-遗忘权衡
认证遗忘保证缺失：遗忘后的对抗微调可能部分恢复被遗忘信息，需结合认证防御机制
仅作用于投影层：未探索 sin 调制与 LoRA 适配器的联合优化（作者将此列为 future work）

评分¶

⭐⭐⭐⭐ 问题切入极精准、方法极简且有严格理论支撑，在两个基准上全面 SOTA；唯一遗憾是仅作用于投影层，对更广泛架构的适用性有待验证。