跳转至

Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models

会议: AAAI 2026
arXiv: 2511.06793
代码: https://github.com/PreckLi/MIP-Editor
领域: AI安全 / 多模态VLM
关键词: 机器遗忘, 多模态大语言模型, 神经元路径编辑, 表示误导, 跨模态一致性

一句话总结

提出 MIP-Editor,通过跨层梯度积分(文本)和 Fisher 积分(视觉)定位多模态大语言模型中编码待遗忘知识的影响力神经元路径,再用基于路径的表示误导(RMisU)编辑这些神经元,在 MLLMU-Bench 上实现最高 87.75% 的遗忘率和 54.26% 的通用知识保留提升。

背景与动机

多模态大语言模型(MLLM)因其庞大的知识容量,面临隐私泄露、有毒内容、知识产权侵权等安全风险。机器遗忘(Machine Unlearning, MU)旨在选择性地从模型中移除特定知识,同时保持整体性能。

现有 MU 方法主要沿两条路线: 1. 微调方法(GA_Diff, KL_Min, NPO 等):直接从 LLM 遗忘方法延伸,忽视 MLLM 多模态结构特性,导致文本模态遗忘不充分 2. 神经元编辑方法(DEPN, MANU 等):基于逐点(point-wise)激活打分发现重要神经元并剪枝,但存在两个根本缺陷: - 逐点评分无法捕捉跨层结构化信息流,遗忘在不同模态间不一致 - 直接剪枝敏感神经元会破坏同时服务于通用推理的路径,造成模型性能严重退化

核心问题

  1. 跨模态遗忘不一致:现有方法在视觉模态上遗忘效果尚可,但在文本模态上遗忘率低(因为 point-wise 归因无法捕捉跨层信息流在文本中的传递方式)
  2. 遗忘-保留权衡失败:当遗忘集与保留集的神经元存在重叠时,直接剪枝会摧毁通用推理能力——MANU 的 Ours-Path 变体在保留集 VQA 上仅得 2.11%,佐证了这一问题

方法详解

整体框架

MIP-Editor 分为两个阶段: 1. 定位阶段:在 FFN 层中用 跨层梯度积分(文本分支)和 跨层 Fisher 积分(视觉分支)分别计算归因分数,找到两条模态特有的影响力神经元路径 2. 编辑阶段:先剪枝路径上的神经元以切断遗忘信息流,再仅对剪枝后的神经元用 RMisU(Representation Misdirection Unlearning)微调,将遗忘集表示引向随机方向、同时恢复保留集性能

关键设计

  1. 跨层梯度积分(IGI)用于文本分支
  2. 不同于 MANU 的逐点激活评分,IGI 将神经元激活从 0 线性插值到原始值(\(m\) 步 Riemann 近似),计算路径上所有层的联合梯度积分:\(\text{IGI}(\mathbf{w}) = \sum_{j=1}^{N} \tilde{w}_{i_j}^n \sum_{k=1}^{m} \sum_{l=1}^{N} \frac{\partial F_T}{\partial w_{i_l}^l}\)
  3. 这捕捉的是跨层级联效应而非单点重要性,对文本信息流建模更准确

  4. 跨层 Fisher 积分(IFI)用于视觉分支

  5. 视觉编码器维度高、空间相关性强、参数冗余大,用 Fisher 信息矩阵对角近似(平方梯度)比一阶梯度更适合:\(\text{IFI}(\mathbf{z}) = \sum_{n=1}^{N} \tilde{z}_{i_n}^n \sum_{k=1}^{m} \sum_{l=1}^{N} \left(\frac{\partial \mathbf{G}}{\partial z_{i_l}^l}\right)^2\)
  6. 设计动机:文本和视觉信号特性不同,用不同阶的信号估计各自的神经元重要性

  7. 基于路径的 RMisU 编辑

  8. 第一步:剪枝路径神经元(激活置零),切断遗忘信息流
  9. 第二步:冻结其他参数,仅对路径神经元做微调
  10. 遗忘目标:将遗忘集表示 \(\mathbf{h}^{(l)}(x_f)\) 引向随机方向 \(\mathbf{v}_f = \lambda \cdot \|\mathbf{h}^{(l)}(x_f)\|_2 \cdot \mathbf{u}\)
  11. 关键:与全模型 RMisU 相比,仅编辑路径神经元大幅减少对通用知识的干扰

  12. 贪心层级搜索定位路径

  13. 在每层选择得分最高的神经元,组成有序路径 \(\mathcal{P}_t\)(文本)和 \(\mathcal{P}_v\)(视觉)
  14. 复杂度为 \(O(C_{\text{grad}} \cdot m \cdot L_t \cdot \sum |w_l^t|)\),相比全局搜索显著降低

损失函数 / 训练策略

总损失由三部分组成: - 保留交叉熵损失 \(\mathcal{L}_{\text{retain}}\):对保留集的标准 next-token prediction loss - 遗忘 RMisU 损失 \(\mathcal{L}_{\text{RMisU}}^f\):将遗忘集中间表示拉向随机向量 - 保留 RMisU 损失 \(\mathcal{L}_{\text{RMisU}}^r\):约束保留集表示不偏离冻结模型

总目标:\(\mathcal{L}_{\text{RMisU}} = \mathcal{L}_{\text{RMisU}}^f + \gamma \cdot \mathcal{L}_{\text{RMisU}}^r\)

训练配置:4 epochs, batch size 4, Adam optimizer, LoRA, lr=2e-5,在 NVIDIA A100 GPU 上运行。

实验关键数据

MLLMU-Bench(5% forget ratio, Qwen2.5-VL-3B)

方法 FVQA↓ RVQA↑ FQA↓ RQA↑
Vanilla 39.20% 37.72% 49.60% 47.20%
GA_Diff 32.00% 32.80% 46.40% 43.20%
KL_Min 33.60% 27.59% 41.60% 42.57%
NPO 37.60% 36.20% 42.40% 44.80%
MANU 36.00% 34.47% 30.80% 34.65%
MIP-Editor 4.80% 58.19% 9.60% 36.80%

CLEAR(5% forget ratio, Qwen2.5-VL-3B)

方法 FVQA↓ RVQA↑ FGEN↓ RGEN↑
Vanilla 72.34% 73.42% 0.3776 0.3900
NPO 7.45% 9.37% 0.0805 0.0639
MIP-Editor 3.19% 24.05% 0.0926 0.3631

LLaVA-1.5-7B(5% forget ratio, MLLMU-Bench)

方法 FVQA↓ RVQA↑ FQA↓ RQA↑
Vanilla 56.80% 51.56% 50.40% 52.59%
MIP-Editor 38.40% 47.22% 36.80% 47.34%

注意:MIP-Editor 在 LLaVA 上的遗忘效果明显弱于 Qwen2.5-VL(FVQA 仅从 56.80% 降到 38.40%),说明方法对模型规模/架构的鲁棒性值得关注。

消融实验要点

  • 去掉双分支定位(仅 IGI 或仅 IFI):遗忘效果大幅下降,FVQA 从 4.80% 升到 36.00%/32.00%,证明双模态路径的必要性
  • 用 point-wise 替代 path-based(Ours-Path):遗忘率好(2.40%),但保留性能崩溃(RVQA 仅 2.11%),验证了直接剪枝的致命问题
  • 去掉 RMisU 编辑(Ours-Edit):FVQA 升到 43.60%,遗忘失败
  • 全模型 RMisU(不做路径定位):RVQA 仅 14.65%,通用能力严重退化
  • 关键结论:路径定位 + RMisU 编辑的组合缺一不可

亮点

  • 从 point-wise 到 path-wise 的范式转变:将神经元重要性估计从独立打分提升为跨层路径级联归因,这个思路自然且有效,top-\(k=2^5\) 即可达到 point-wise 在 \(2^{13}\) 才能达到的性能
  • 异质模态不同归因策略:为文本(一阶梯度积分)和视觉(二阶 Fisher 积分)分别设计归因分数,符合各自信号特性
  • 仅编辑路径实现遗忘-保留解耦:先剪枝后微调的两阶段策略,只更新少量参数即可恢复通用能力
  • 信息可分性验证(§4.7):用 MLP 分类器验证遗忘后模型能否区分遗忘/保留数据,MIP-Editor 分类准确率超过 85%,远超 baseline 的约 50%

局限性 / 可改进方向

  • 在较大模型上效果减弱:LLaVA-1.5-7B 上遗忘率明显低于 Qwen2.5-VL-3B(FVQA 38.40% vs 4.80%),scaling behavior 未被充分讨论
  • 贪心路径搜索非最优:逐层贪心选择神经元组成路径,可能错过层间最优组合;时间复杂度仍然较高 \(O(C_{\text{grad}} \cdot m \cdot L \cdot \sum|w_l|)\)
  • 遗忘集比例敏感性:5% 效果最好,10%/15% 时保留性能下降较明显(不同 forget ratio 下的一致性不够稳健)
  • 仅在 MLLMU-Bench 和 CLEAR 上评估:两个 benchmark 都比较新且规模有限(500+153 / 200 个 profile),真实场景泛化性未知
  • CLEAR 数据集不稳定:作者自己承认 CLEAR 对超参极敏感,容易模型崩溃——这削弱了在 CLEAR 上结果的说服力
  • 缺乏与更多 MLLM 架构的对比:仅测试了两种模型,缺少对 InternVL、Phi-3-Vision 等架构的验证
  • 遗忘验证不够严格:没有使用 membership inference attack 等更严格的遗忘验证方法

与相关工作的对比

方法 核心策略 优势 劣势
MANU (2025) 逐点激活打分 + 剪枝 简单高效 point-wise 信息不够、剪枝破坏通用路径
NPO (2024) 偏好优化遗忘 文本遗忘较好 忽略多模态结构、CLEAR 上几乎崩溃
GA_Diff (2022) 梯度上升 + 梯度下降 直觉简单 遗忘不充分、语言流畅性退化
MIP-Editor (本文) 路径级归因 + RMisU 跨模态一致遗忘、保留好 计算开销大、大模型效果弱

MIP-Editor 的核心优势在于 path-aware 编辑比 point-wise 剪枝更"精准",通过双分支设计实现了跨模态协调遗忘。但计算成本和 scaling 是明显短板。

启发与关联

  • 结构保持的选择性机器遗忘 idea 高度相关:本文的"路径"概念可与拓扑结构保持结合——在遗忘时不仅保护路径上的通用神经元,还保持特征空间的拓扑结构
  • 从路径到子网:MIP-Editor 的每层选 1 个神经元过于稀疏,可扩展为选择子网络(subnetwork)级别的路径
  • 跨域迁移:路径级归因思路可迁移到持续学习(定位旧知识路径避免遗忘)、模型编辑(定位事实路径做精确修改)等场景
  • Fisher 积分 vs 梯度积分的选择可推广为通用框架:根据模态特性自动选择最合适的归因信号阶数

评分

  • 新颖性: ⭐⭐⭐⭐ 从 point-wise 到 path-wise 的归因范式转变有实质创新,但 RMisU 部分借鉴已有工作
  • 实验充分度: ⭐⭐⭐⭐ 消融详细、可视化清晰,但模型覆盖面窄且 CLEAR 上结果不够有说服力
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰、方法描述完整,公式推导严谨,但部分符号符号不一致(如 \(N\)\(L\) 的使用)
  • 价值: ⭐⭐⭐⭐ MLLM 遗忘是重要新方向,路径级编辑提供了实用框架,对隐私合规有直接应用价值