Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models¶

会议: AAAI 2026
arXiv: 2511.06793
代码: https://github.com/PreckLi/MIP-Editor
领域: AI安全 / 多模态VLM
关键词: 机器遗忘, 多模态大语言模型, 神经元路径编辑, 表示误导, 跨模态一致性

一句话总结¶

提出 MIP-Editor，通过跨层梯度积分（文本）和 Fisher 积分（视觉）定位多模态大语言模型中编码待遗忘知识的影响力神经元路径，再用基于路径的表示误导（RMisU）编辑这些神经元，在 MLLMU-Bench 上实现最高 87.75% 的遗忘率和 54.26% 的通用知识保留提升。

背景与动机¶

多模态大语言模型（MLLM）因其庞大的知识容量，面临隐私泄露、有毒内容、知识产权侵权等安全风险。机器遗忘（Machine Unlearning, MU）旨在选择性地从模型中移除特定知识，同时保持整体性能。

现有 MU 方法主要沿两条路线： 1. 微调方法（GA_Diff, KL_Min, NPO 等）：直接从 LLM 遗忘方法延伸，忽视 MLLM 多模态结构特性，导致文本模态遗忘不充分 2. 神经元编辑方法（DEPN, MANU 等）：基于逐点（point-wise）激活打分发现重要神经元并剪枝，但存在两个根本缺陷： - 逐点评分无法捕捉跨层结构化信息流，遗忘在不同模态间不一致 - 直接剪枝敏感神经元会破坏同时服务于通用推理的路径，造成模型性能严重退化

核心问题¶

跨模态遗忘不一致：现有方法在视觉模态上遗忘效果尚可，但在文本模态上遗忘率低（因为 point-wise 归因无法捕捉跨层信息流在文本中的传递方式）
遗忘-保留权衡失败：当遗忘集与保留集的神经元存在重叠时，直接剪枝会摧毁通用推理能力——MANU 的 Ours-Path 变体在保留集 VQA 上仅得 2.11%，佐证了这一问题

方法详解¶

整体框架¶

MIP-Editor 分为两个阶段： 1. 定位阶段：在 FFN 层中用 跨层梯度积分（文本分支）和 跨层 Fisher 积分（视觉分支）分别计算归因分数，找到两条模态特有的影响力神经元路径 2. 编辑阶段：先剪枝路径上的神经元以切断遗忘信息流，再仅对剪枝后的神经元用 RMisU（Representation Misdirection Unlearning）微调，将遗忘集表示引向随机方向、同时恢复保留集性能

关键设计¶

跨层梯度积分（IGI）用于文本分支：
不同于 MANU 的逐点激活评分，IGI 将神经元激活从 0 线性插值到原始值（\(m\) 步 Riemann 近似），计算路径上所有层的联合梯度积分：\(\text{IGI}(\mathbf{w}) = \sum_{j=1}^{N} \tilde{w}_{i_j}^n \sum_{k=1}^{m} \sum_{l=1}^{N} \frac{\partial F_T}{\partial w_{i_l}^l}\)
这捕捉的是跨层级联效应而非单点重要性，对文本信息流建模更准确
跨层 Fisher 积分（IFI）用于视觉分支：
视觉编码器维度高、空间相关性强、参数冗余大，用 Fisher 信息矩阵对角近似（平方梯度）比一阶梯度更适合：\(\text{IFI}(\mathbf{z}) = \sum_{n=1}^{N} \tilde{z}_{i_n}^n \sum_{k=1}^{m} \sum_{l=1}^{N} \left(\frac{\partial \mathbf{G}}{\partial z_{i_l}^l}\right)^2\)
设计动机：文本和视觉信号特性不同，用不同阶的信号估计各自的神经元重要性
基于路径的 RMisU 编辑：
第一步：剪枝路径神经元（激活置零），切断遗忘信息流
第二步：冻结其他参数，仅对路径神经元做微调
遗忘目标：将遗忘集表示 \(\mathbf{h}^{(l)}(x_f)\) 引向随机方向 \(\mathbf{v}_f = \lambda \cdot \|\mathbf{h}^{(l)}(x_f)\|_2 \cdot \mathbf{u}\)
关键：与全模型 RMisU 相比，仅编辑路径神经元大幅减少对通用知识的干扰
贪心层级搜索定位路径：
在每层选择得分最高的神经元，组成有序路径 \(\mathcal{P}_t\)（文本）和 \(\mathcal{P}_v\)（视觉）
复杂度为 \(O(C_{\text{grad}} \cdot m \cdot L_t \cdot \sum |w_l^t|)\)，相比全局搜索显著降低

损失函数 / 训练策略¶

总损失由三部分组成： - 保留交叉熵损失 \(\mathcal{L}_{\text{retain}}\)：对保留集的标准 next-token prediction loss - 遗忘 RMisU 损失 \(\mathcal{L}_{\text{RMisU}}^f\)：将遗忘集中间表示拉向随机向量 - 保留 RMisU 损失 \(\mathcal{L}_{\text{RMisU}}^r\)：约束保留集表示不偏离冻结模型

总目标：\(\mathcal{L}_{\text{RMisU}} = \mathcal{L}_{\text{RMisU}}^f + \gamma \cdot \mathcal{L}_{\text{RMisU}}^r\)

训练配置：4 epochs, batch size 4, Adam optimizer, LoRA, lr=2e-5，在 NVIDIA A100 GPU 上运行。

实验关键数据¶

MLLMU-Bench（5% forget ratio, Qwen2.5-VL-3B）¶

方法	FVQA↓	RVQA↑	FQA↓	RQA↑
Vanilla	39.20%	37.72%	49.60%	47.20%
GA_Diff	32.00%	32.80%	46.40%	43.20%
KL_Min	33.60%	27.59%	41.60%	42.57%
NPO	37.60%	36.20%	42.40%	44.80%
MANU	36.00%	34.47%	30.80%	34.65%
MIP-Editor	4.80%	58.19%	9.60%	36.80%

CLEAR（5% forget ratio, Qwen2.5-VL-3B）¶

方法	FVQA↓	RVQA↑	FGEN↓	RGEN↑
Vanilla	72.34%	73.42%	0.3776	0.3900
NPO	7.45%	9.37%	0.0805	0.0639
MIP-Editor	3.19%	24.05%	0.0926	0.3631

LLaVA-1.5-7B（5% forget ratio, MLLMU-Bench）¶

方法	FVQA↓	RVQA↑	FQA↓	RQA↑
Vanilla	56.80%	51.56%	50.40%	52.59%
MIP-Editor	38.40%	47.22%	36.80%	47.34%

注意：MIP-Editor 在 LLaVA 上的遗忘效果明显弱于 Qwen2.5-VL（FVQA 仅从 56.80% 降到 38.40%），说明方法对模型规模/架构的鲁棒性值得关注。

消融实验要点¶

去掉双分支定位（仅 IGI 或仅 IFI）：遗忘效果大幅下降，FVQA 从 4.80% 升到 36.00%/32.00%，证明双模态路径的必要性
用 point-wise 替代 path-based（Ours-Path）：遗忘率好（2.40%），但保留性能崩溃（RVQA 仅 2.11%），验证了直接剪枝的致命问题
去掉 RMisU 编辑（Ours-Edit）：FVQA 升到 43.60%，遗忘失败
全模型 RMisU（不做路径定位）：RVQA 仅 14.65%，通用能力严重退化
关键结论：路径定位 + RMisU 编辑的组合缺一不可

亮点¶

从 point-wise 到 path-wise 的范式转变：将神经元重要性估计从独立打分提升为跨层路径级联归因，这个思路自然且有效，top-\(k=2^5\) 即可达到 point-wise 在 \(2^{13}\) 才能达到的性能
异质模态不同归因策略：为文本（一阶梯度积分）和视觉（二阶 Fisher 积分）分别设计归因分数，符合各自信号特性
仅编辑路径实现遗忘-保留解耦：先剪枝后微调的两阶段策略，只更新少量参数即可恢复通用能力
信息可分性验证（§4.7）：用 MLP 分类器验证遗忘后模型能否区分遗忘/保留数据，MIP-Editor 分类准确率超过 85%，远超 baseline 的约 50%

局限性 / 可改进方向¶

在较大模型上效果减弱：LLaVA-1.5-7B 上遗忘率明显低于 Qwen2.5-VL-3B（FVQA 38.40% vs 4.80%），scaling behavior 未被充分讨论
贪心路径搜索非最优：逐层贪心选择神经元组成路径，可能错过层间最优组合；时间复杂度仍然较高 \(O(C_{\text{grad}} \cdot m \cdot L \cdot \sum|w_l|)\)
遗忘集比例敏感性：5% 效果最好，10%/15% 时保留性能下降较明显（不同 forget ratio 下的一致性不够稳健）
仅在 MLLMU-Bench 和 CLEAR 上评估：两个 benchmark 都比较新且规模有限（500+153 / 200 个 profile），真实场景泛化性未知
CLEAR 数据集不稳定：作者自己承认 CLEAR 对超参极敏感，容易模型崩溃——这削弱了在 CLEAR 上结果的说服力
缺乏与更多 MLLM 架构的对比：仅测试了两种模型，缺少对 InternVL、Phi-3-Vision 等架构的验证
遗忘验证不够严格：没有使用 membership inference attack 等更严格的遗忘验证方法

与相关工作的对比¶

方法	核心策略	优势	劣势
MANU (2025)	逐点激活打分 + 剪枝	简单高效	point-wise 信息不够、剪枝破坏通用路径
NPO (2024)	偏好优化遗忘	文本遗忘较好	忽略多模态结构、CLEAR 上几乎崩溃
GA_Diff (2022)	梯度上升 + 梯度下降	直觉简单	遗忘不充分、语言流畅性退化
MIP-Editor (本文)	路径级归因 + RMisU	跨模态一致遗忘、保留好	计算开销大、大模型效果弱

MIP-Editor 的核心优势在于 path-aware 编辑比 point-wise 剪枝更"精准"，通过双分支设计实现了跨模态协调遗忘。但计算成本和 scaling 是明显短板。

启发与关联¶

与结构保持的选择性机器遗忘 idea 高度相关：本文的"路径"概念可与拓扑结构保持结合——在遗忘时不仅保护路径上的通用神经元，还保持特征空间的拓扑结构
从路径到子网：MIP-Editor 的每层选 1 个神经元过于稀疏，可扩展为选择子网络（subnetwork）级别的路径
跨域迁移：路径级归因思路可迁移到持续学习（定位旧知识路径避免遗忘）、模型编辑（定位事实路径做精确修改）等场景
Fisher 积分 vs 梯度积分的选择可推广为通用框架：根据模态特性自动选择最合适的归因信号阶数

评分¶

新颖性: ⭐⭐⭐⭐ 从 point-wise 到 path-wise 的归因范式转变有实质创新，但 RMisU 部分借鉴已有工作
实验充分度: ⭐⭐⭐⭐ 消融详细、可视化清晰，但模型覆盖面窄且 CLEAR 上结果不够有说服力
写作质量: ⭐⭐⭐⭐ 问题定义清晰、方法描述完整，公式推导严谨，但部分符号符号不一致（如 \(N\) 和 \(L\) 的使用）
价值: ⭐⭐⭐⭐ MLLM 遗忘是重要新方向，路径级编辑提供了实用框架，对隐私合规有直接应用价值