跳转至

Evolutionary Negative Module Pruning for Better LoRA Merging

会议: ACL 2026
arXiv: 2604.17753
代码: github
领域: 模型合并 / LoRA 融合
关键词: LoRA合并, 负面模块剪枝, 进化搜索, 多任务部署, CMA-ES

一句话总结

提出 ENMP 方法,通过进化搜索策略发现并剪除 LoRA 合并中降低性能的"负面模块",作为即插即用的增强手段,在 NLP 和视觉领域全面提升现有合并算法的效果。

研究背景与动机

领域现状:LoRA 因其参数效率和良好收敛性成为大模型微调的主流方法,实际部署中常需将多个任务的 LoRA 适配器合并到单一骨干网络中,以实现高效多任务推理。

现有痛点:现有合并方法(如 Task Arithmetic、TIES、DARE、KnOTS、CoreSpace 等)都隐式假设所有 LoRA 矩阵对合并后的模型有正向贡献。然而作者发现某些特定层的 LoRA 模块在合并时反而会降低全局性能——即"负面模块"的存在。

核心矛盾:负面模块的影响是相互依赖的:一个在完整集合中表现为"负面"的模块,在其他有害模块被移除后可能变为有益的,反之亦然。这种条件依赖导致贪心策略无法捕获高阶交互,且 \(2^N\) 的搜索空间使穷举搜索不可行。

本文目标:设计一种能够自动定位并剪除这些负面模块的方法,作为现有合并算法的通用增强插件。

切入角度:将模块选择问题建模为组合优化问题,利用进化策略在连续潜在空间中高效搜索最优剪枝配置。

核心 idea:利用 CMA-ES 进化策略的协方差矩阵建模模块间依赖关系,在连续空间搜索后映射为离散剪枝掩码,精确移除有害模块。

方法详解

整体框架

ENMP 框架包含两个核心阶段:(1) 通过 CMA-ES 进化搜索在连续潜在空间中采样候选剪枝掩码;(2) 将掩码应用于 LoRA 适配器,剪除负面模块后再用现有方法(如 TIES、DARE)完成合并。搜索过程通过验证集性能迭代优化分布参数。

关键设计

  1. 负面模块剪枝机制:

    • 功能:在合并前选择性移除降低性能的 LoRA 层
    • 核心思路:定义二值剪枝掩码 \(\mathbf{m} \in \{0,1\}^{L \times T}\),以 Transformer 层内的全部注意力投影(q/k/v/out_proj)为最小剪枝单元,保持注意力机制内部语义一致性
    • 设计动机:实验发现 leave-one-out 分析中,移除某些层的 LoRA 模块后合并性能反而提升,证实负面模块的存在
  2. CMA-ES 进化搜索优化:

    • 功能:在 \(2^N\) 的离散搜索空间中高效寻找最优剪枝配置
    • 核心思路:引入连续潜在向量 \(\mathbf{z} \in \mathbb{R}^N\) 作为可学习的负面分数,通过动态阈值策略将连续值映射为二值掩码。采用保守初始化(均值 \(-1\))确保从全合并状态开始搜索
    • 设计动机:CMA-ES 的协方差矩阵能建模模块间依赖关系,捕获贪心方法忽略的高阶交互
  3. 动态阈值掩码映射:

    • 功能:将连续潜在空间的搜索结果转化为离散的二值剪枝掩码
    • 核心思路:设置最大剪枝比例 \(k\),选取 \(\mathbf{z}\) 中最大的 \(\lfloor k \cdot N \rfloor\) 个正值元素设为1(剪除),其余设为0(保留)
    • 设计动机:通过上界约束实现自适应稀疏性——实验表明算法会自主收敛到最优稀疏水平,无需精细调参

训练策略

进化搜索为一次性离线计算。种群大小 \(N_{\text{pop}}=16\),迭代60代,初始步长 \(\sigma=0.5\),最大剪枝比 \(k=0.2\)。在8张RTX 4090上并行评估候选方案,约2.3小时收敛,前10代即可获得大部分收益。

实验关键数据

主实验(NLP Benchmark - Llama-3-8B)

方法 平均归一化准确率 提升
TA 90.25% -
TA + ENMP 93.49% +3.24%
TIES 89.99% -
TIES + ENMP 96.39% +6.40%
DARE 89.20% -
DARE + ENMP 96.17% +6.97%
KnOTS 92.47% -
KnOTS + ENMP 97.29% +4.82%
CoreSpace 94.18% -
CoreSpace + ENMP 96.73% +2.55%

消融实验

配置 平均归一化准确率 说明
TA + Random Pruning 89.10% 随机剪枝反而降低性能
TA + ENMP 93.49% 精确定位是关键
k=0.0 90.25% 不剪枝
k=0.1 93.37% 少量剪枝即有显著收益
64 samples/task 91.17% 少量验证数据即可有效

关键发现

  • ENMP 在所有基线方法上都带来一致提升,说明负面模块是 LoRA 合并的普遍瓶颈
  • 在敏感任务 QNLI 上实现超过 +20% 的恢复,说明任务干扰分布不均匀
  • Prune-then-Align 优于 Align-then-Prune,避免负面模块"污染"共享子空间
  • 视觉域同样有效(KnOTS +5.54%),方法具有跨模态通用性

亮点与洞察

  • 首次系统揭示 LoRA 合并中"负面模块"现象,挑战了"所有模块贡献正向"的隐含假设
  • 即插即用设计:可与任意现有合并算法组合,无需修改合并算法本身
  • 自适应稀疏性:搜索算法自动确定最优剪枝数量,无需精细调参
  • 合并后模型与原始骨干结构一致,推理时零额外开销

局限与展望

  • 进化搜索需要一次性离线计算(约2.3小时),扩展到极大规模模型(70B+)仍有挑战
  • 依赖验证集来计算适应度,无法用于严格的无数据合并场景
  • 未来可探索更高效的采样策略和无数据剪枝方法

相关工作与启发

  • vs Task Arithmetic/TIES/DARE: 这些方法在参数层面处理干扰,ENMP 在模块层面消除干扰,两者互补
  • vs KnOTS/CoreSpace: 子空间对齐方法假设所有模块有正向贡献,ENMP 先移除有害模块再对齐效果更好
  • vs 贪心剪枝: 贪心策略忽略跨层依赖,导致性能下降(55.76%),进化搜索捕获高阶交互

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统揭示负面模块现象并提出进化搜索解决方案,角度新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ NLP+CV双域验证,6种基线对比,丰富的消融实验
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,从现象到方法再到实验逻辑通顺
  • 价值: ⭐⭐⭐⭐ 即插即用的实用价值高,对 LoRA 合并领域有重要启示

相关论文