Evolutionary Negative Module Pruning for Better LoRA Merging¶

会议: ACL 2026
arXiv: 2604.17753
代码: github
领域: 模型合并 / LoRA 融合
关键词: LoRA合并, 负面模块剪枝, 进化搜索, 多任务部署, CMA-ES

一句话总结¶

提出 ENMP 方法，通过进化搜索策略发现并剪除 LoRA 合并中降低性能的"负面模块"，作为即插即用的增强手段，在 NLP 和视觉领域全面提升现有合并算法的效果。

领域现状：LoRA 因其参数效率和良好收敛性成为大模型微调的主流方法，实际部署中常需将多个任务的 LoRA 适配器合并到单一骨干网络中，以实现高效多任务推理。

现有痛点：现有合并方法（如 Task Arithmetic、TIES、DARE、KnOTS、CoreSpace 等）都隐式假设所有 LoRA 矩阵对合并后的模型有正向贡献。然而作者发现某些特定层的 LoRA 模块在合并时反而会降低全局性能——即"负面模块"的存在。

核心矛盾：负面模块的影响是相互依赖的：一个在完整集合中表现为"负面"的模块，在其他有害模块被移除后可能变为有益的，反之亦然。这种条件依赖导致贪心策略无法捕获高阶交互，且 \(2^N\) 的搜索空间使穷举搜索不可行。

本文目标：设计一种能够自动定位并剪除这些负面模块的方法，作为现有合并算法的通用增强插件。

切入角度：将模块选择问题建模为组合优化问题，利用进化策略在连续潜在空间中高效搜索最优剪枝配置。

核心 idea：利用 CMA-ES 进化策略的协方差矩阵建模模块间依赖关系，在连续空间搜索后映射为离散剪枝掩码，精确移除有害模块。

ENMP 框架包含两个核心阶段：(1) 通过 CMA-ES 进化搜索在连续潜在空间中采样候选剪枝掩码；(2) 将掩码应用于 LoRA 适配器，剪除负面模块后再用现有方法（如 TIES、DARE）完成合并。搜索过程通过验证集性能迭代优化分布参数。

负面模块剪枝机制:
- 功能：在合并前选择性移除降低性能的 LoRA 层
- 核心思路：定义二值剪枝掩码 \(\mathbf{m} \in \{0,1\}^{L \times T}\)，以 Transformer 层内的全部注意力投影（q/k/v/out_proj）为最小剪枝单元，保持注意力机制内部语义一致性
- 设计动机：实验发现 leave-one-out 分析中，移除某些层的 LoRA 模块后合并性能反而提升，证实负面模块的存在
CMA-ES 进化搜索优化:
- 功能：在 \(2^N\) 的离散搜索空间中高效寻找最优剪枝配置
- 核心思路：引入连续潜在向量 \(\mathbf{z} \in \mathbb{R}^N\) 作为可学习的负面分数，通过动态阈值策略将连续值映射为二值掩码。采用保守初始化（均值 \(-1\)）确保从全合并状态开始搜索
- 设计动机：CMA-ES 的协方差矩阵能建模模块间依赖关系，捕获贪心方法忽略的高阶交互
动态阈值掩码映射:
- 功能：将连续潜在空间的搜索结果转化为离散的二值剪枝掩码
- 核心思路：设置最大剪枝比例 \(k\)，选取 \(\mathbf{z}\) 中最大的 \(\lfloor k \cdot N \rfloor\) 个正值元素设为1（剪除），其余设为0（保留）
- 设计动机：通过上界约束实现自适应稀疏性——实验表明算法会自主收敛到最优稀疏水平，无需精细调参

进化搜索为一次性离线计算。种群大小 \(N_{\text{pop}}=16\)，迭代60代，初始步长 \(\sigma=0.5\)，最大剪枝比 \(k=0.2\)。在8张RTX 4090上并行评估候选方案，约2.3小时收敛，前10代即可获得大部分收益。