跳转至

Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models

会议: ACL 2025 (Long Paper)
arXiv: 2502.15910
代码: https://github.com/franciscoliu/MANU
领域: AI安全 / 多模态VLM
关键词: 机器遗忘, MLLM, 神经元剪枝, 模态感知, 隐私保护

一句话总结

提出MANU框架解决MLLM中的多模态遗忘不平衡问题:通过四种重要性函数(绝对/频率/方差/RMS)识别跨模态知识纠缠的神经元,选择性剪枝实现多模态输入和纯文本输入下的均衡知识遗忘,同时保持模型通用能力。

背景与动机

LLM/MLLM训练在大规模数据上可能记忆敏感信息。机器遗忘(Machine Unlearning)旨在高效删除特定知识。但已有LLM遗忘方法直接用于MLLM时出现严重的不平衡遗忘问题:多模态输入(图+文)下的知识被成功遗忘,但纯文本输入下同样的知识仍然保留。原因在于不同模态的输入激活了不同的神经元——多模态遗忘只影响了多模态路径的神经元,文本路径未受影响。

核心问题

如何在MLLM中实现跨模态均衡的知识遗忘——既在多模态输入下遗忘,也在纯文本输入下遗忘?

方法详解

整体框架

两阶段:(1) 重要神经元选择——用四种重要性指标评估每个MLP神经元对遗忘数据的贡献;(2) 选择性剪枝——基于评分函数剪枝影响最大的神经元。

关键设计

  1. 四种模态感知重要性函数:
  2. 绝对重要性(I_abs): 衡量神经元在多模态vs纯文本输入下激活幅度的差异
  3. 频率重要性(I_freq): 衡量神经元在不同模态下被激活(超过阈值τ)的频率差异
  4. 方差重要性(I_var): 衡量激活值在不同模态下的分布散度差异
  5. RMS重要性(I_rms): 衡量激活的均方根差异

每种指标都设计为"模态对比"形式——比较同一神经元在多模态和纯文本输入下的行为差异,从而识别模态特定的知识载体。

  1. 相对重要性评分: 不仅考虑神经元对forget data的绝对重要性,还计算相对于retain data的重要性差异:Score(n) = I(D_f, n) - λ·I(D_r, n)。这确保剪枝的神经元主要负责遗忘知识而非保留知识。

  2. 选择性剪枝: 对所有MLP层(包括语言模块和视觉模块)中的神经元按评分排序,剪枝top-p%的神经元。剪枝方式:将神经元权重归零(即clip到0)。无需梯度更新或训练。

损失函数 / 训练策略

  • 完全无需训练(training-free),仅需一次前向传播收集激活统计
  • 在LLaVA-1.5-7B和Idefics2-8B上验证
  • 评估覆盖Forget Set、Test Set(泛化)、Retain Set、Real Celebrity Set、MMMU、LLaVA-Bench

实验关键数据

在MLLMU-Bench上(5%遗忘比例): - 遗忘效果(Forget Set): MANU在多模态和纯文本输入下都实现了有效遗忘;而GA/GD/KL/NPO在纯文本输入下遗忘不完全 - 模型保留:MANU在Retain Set和Real Celebrity Set上的性能保留率最高 - 通用能力: MMMU和LLaVA-Bench上性能下降最小

消融实验要点

  • 四种重要性函数对比: 组合使用效果最好,单独使用I_abs或I_freq也有效
  • 剪枝比例p: 1-5%是最优区间,过多剪枝损害通用能力
  • λ参数: λ=0.5平衡遗忘和保留效果最佳
  • 层级分析: 热力图显示不同层对不同模态的知识存储模式不同
  • 跨模型验证: 在LLaVA和Idefics2上表现一致

亮点

  • 揭示新问题: 首次系统分析MLLM遗忘中的模态不平衡问题,并提供热力图可视化证据
  • 无需训练: 纯统计+剪枝方法,不需要任何梯度更新
  • 模态感知设计: 四种互补的重要性指标从不同角度捕捉模态特定的神经元
  • 保留通用能力: 相对重要性评分确保不误伤与遗忘无关的知识

局限性 / 可改进方向

  • 仅在虚构人物遗忘场景验证,未测试概念级遗忘(如特定技能或知识域)
  • 剪枝(归零)是粗粒度的操作,可能可以用更精细的权重修改代替
  • 仅在7B/8B模型上验证,更大模型中的神经元角色分工可能不同
  • 未探讨遗忘后模型是否可以通过微调重新学会被遗忘的知识(遗忘的鲁棒性)
  • 四种重要性函数的组合权重是手动设置的

与相关工作的对比

  • vs GA/Gradient Difference: 这些梯度方法在MLLM上导致多模态遗忘但文本保留
  • vs NPO: NPO也出现模态不平衡问题
  • vs 系统提示(Prompting): 简单的系统提示可部分防止输出,但知识仍存储在模型中

启发与关联

  • 不同模态激活不同神经元的发现,与VHR论文(Cracking Hallucination)中"少数头控制视觉信息"的发现呼应
  • 模态感知神经元分析可以用于模型压缩——如果知道哪些神经元专门处理视觉、哪些处理文本,可以做模态特定的压缩
  • 遗忘技术在安全领域有直接应用价值(如移除MLLM中的有害内容知识)

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统解决MLLM遗忘的模态不平衡问题
  • 实验充分度: ⭐⭐⭐⭐ 多模型、多数据集、详细消融和可视化
  • 写作质量: ⭐⭐⭐⭐ 问题动机阐述清晰,热力图可视化直观
  • 价值: ⭐⭐⭐⭐ 对AI安全和隐私保护有重要意义