Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models¶

会议: ACL 2025 (Long Paper)
arXiv: 2502.15910
代码: https://github.com/franciscoliu/MANU
领域: AI安全 / 多模态VLM
关键词: 机器遗忘, MLLM, 神经元剪枝, 模态感知, 隐私保护

一句话总结¶

提出MANU框架解决MLLM中的多模态遗忘不平衡问题：通过四种重要性函数（绝对/频率/方差/RMS）识别跨模态知识纠缠的神经元，选择性剪枝实现多模态输入和纯文本输入下的均衡知识遗忘，同时保持模型通用能力。

背景与动机¶

LLM/MLLM训练在大规模数据上可能记忆敏感信息。机器遗忘（Machine Unlearning）旨在高效删除特定知识。但已有LLM遗忘方法直接用于MLLM时出现严重的不平衡遗忘问题：多模态输入（图+文）下的知识被成功遗忘，但纯文本输入下同样的知识仍然保留。原因在于不同模态的输入激活了不同的神经元——多模态遗忘只影响了多模态路径的神经元，文本路径未受影响。

核心问题¶

如何在MLLM中实现跨模态均衡的知识遗忘——既在多模态输入下遗忘，也在纯文本输入下遗忘？

方法详解¶

整体框架¶

两阶段：(1) 重要神经元选择——用四种重要性指标评估每个MLP神经元对遗忘数据的贡献；(2) 选择性剪枝——基于评分函数剪枝影响最大的神经元。

关键设计¶

四种模态感知重要性函数:
绝对重要性(I_abs): 衡量神经元在多模态vs纯文本输入下激活幅度的差异
频率重要性(I_freq): 衡量神经元在不同模态下被激活（超过阈值τ）的频率差异
方差重要性(I_var): 衡量激活值在不同模态下的分布散度差异
RMS重要性(I_rms): 衡量激活的均方根差异

每种指标都设计为"模态对比"形式——比较同一神经元在多模态和纯文本输入下的行为差异，从而识别模态特定的知识载体。

相对重要性评分: 不仅考虑神经元对forget data的绝对重要性，还计算相对于retain data的重要性差异：Score(n) = I(D_f, n) - λ·I(D_r, n)。这确保剪枝的神经元主要负责遗忘知识而非保留知识。
选择性剪枝: 对所有MLP层（包括语言模块和视觉模块）中的神经元按评分排序，剪枝top-p%的神经元。剪枝方式：将神经元权重归零（即clip到0）。无需梯度更新或训练。

损失函数 / 训练策略¶

完全无需训练（training-free），仅需一次前向传播收集激活统计
在LLaVA-1.5-7B和Idefics2-8B上验证
评估覆盖Forget Set、Test Set（泛化）、Retain Set、Real Celebrity Set、MMMU、LLaVA-Bench

实验关键数据¶

在MLLMU-Bench上（5%遗忘比例）： - 遗忘效果（Forget Set）: MANU在多模态和纯文本输入下都实现了有效遗忘；而GA/GD/KL/NPO在纯文本输入下遗忘不完全 - 模型保留:MANU在Retain Set和Real Celebrity Set上的性能保留率最高 - 通用能力: MMMU和LLaVA-Bench上性能下降最小

消融实验要点¶

四种重要性函数对比: 组合使用效果最好，单独使用I_abs或I_freq也有效
剪枝比例p: 1-5%是最优区间，过多剪枝损害通用能力
λ参数: λ=0.5平衡遗忘和保留效果最佳
层级分析: 热力图显示不同层对不同模态的知识存储模式不同
跨模型验证: 在LLaVA和Idefics2上表现一致

亮点¶

揭示新问题: 首次系统分析MLLM遗忘中的模态不平衡问题，并提供热力图可视化证据
无需训练: 纯统计+剪枝方法，不需要任何梯度更新
模态感知设计: 四种互补的重要性指标从不同角度捕捉模态特定的神经元
保留通用能力: 相对重要性评分确保不误伤与遗忘无关的知识

局限性 / 可改进方向¶

仅在虚构人物遗忘场景验证，未测试概念级遗忘（如特定技能或知识域）
剪枝（归零）是粗粒度的操作，可能可以用更精细的权重修改代替
仅在7B/8B模型上验证，更大模型中的神经元角色分工可能不同
未探讨遗忘后模型是否可以通过微调重新学会被遗忘的知识（遗忘的鲁棒性）
四种重要性函数的组合权重是手动设置的

与相关工作的对比¶

vs GA/Gradient Difference: 这些梯度方法在MLLM上导致多模态遗忘但文本保留
vs NPO: NPO也出现模态不平衡问题
vs 系统提示(Prompting): 简单的系统提示可部分防止输出，但知识仍存储在模型中

启发与关联¶

不同模态激活不同神经元的发现，与VHR论文（Cracking Hallucination）中"少数头控制视觉信息"的发现呼应
模态感知神经元分析可以用于模型压缩——如果知道哪些神经元专门处理视觉、哪些处理文本，可以做模态特定的压缩
遗忘技术在安全领域有直接应用价值（如移除MLLM中的有害内容知识）

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统解决MLLM遗忘的模态不平衡问题
实验充分度: ⭐⭐⭐⭐ 多模型、多数据集、详细消融和可视化
写作质量: ⭐⭐⭐⭐ 问题动机阐述清晰，热力图可视化直观
价值: ⭐⭐⭐⭐ 对AI安全和隐私保护有重要意义