Training-free LLM Merging for Multi-task Learning¶

会议: ACL 2025
arXiv: 2506.12379
代码: GitHub
领域: LLM模型合并
关键词: 模型合并, 多任务学习, 层级剪枝, 冲突消除, 无训练

一句话总结¶

提出Hi-Merging，一种层级迭代式无训练模型合并方法，通过模型级和层级的剪枝与缩放操作，结合贡献度分析来识别和解决参数冲突，将不同任务/语言的专用LLM合并为统一的多任务模型，在大多数场景下超越混合数据微调的基线。

研究背景与动机¶

随着LLaMA、Qwen等开源大模型的发布，Hugging Face上已有超过100万个针对不同任务和语言微调的专用LLM。一个自然的问题是：能否将这些专用模型合并为一个统一的多任务模型？

直接的方案是收集所有微调数据重新训练，但这面临三大困难： 1. 数据不可得：模型公开但微调数据通常不公开 2. 计算成本高：重新训练大模型需要巨大计算资源 3. 跷跷板效应：在混合数据上训练时，提升一个任务往往损害另一个任务

模型合并（Model Merging）因此成为有吸引力的替代方案，但现有方法面临两个核心挑战： - 噪声干扰：微调中因数据偏差或过拟合引入的噪声参数会损害合并后的泛化性 - 知识不对齐：独立训练的模型遵循不同的优化轨迹，导致参数空间中的知识对齐方式不同，直接合并会产生不兼容

现有方法如TIES-Merging、DARE等缺乏明确的冲突定位指导，性能随机性较高。本文提出的Hi-Merging通过层级分析系统性地解决这些问题。

方法详解¶

整体框架¶

Hi-Merging采用两阶段层级处理架构： 1. 模型级剪枝与缩放：对每个微调模型的delta向量整体去噪和调节 2. 层级剪枝与缩放：通过贡献度分析识别冲突最严重的层，迭代地消除参数冲突

核心数学基础是delta向量：\(\boldsymbol{\delta}_m = \boldsymbol{\theta}_m - \boldsymbol{\theta}_F\)，即微调模型与基础模型的参数差异。

关键设计¶

模型级剪枝与缩放（Model-wise Pruning & Scaling）：
- 剪枝阈值 \(p\)：保留delta向量中绝对值最大的 \(p\%\) 分量，其余置零——消除因数据偏差引入的噪声参数
- 缩放因子 \(s\)：将保留的delta向量乘以 \(s \in [0,1]\)——调节因过拟合产生的过激参数
- 实验验证：\(p=0.1, s=0.9\)（仅保留10%参数并缩放0.9）即可超过原模型性能
- 两个操作互补：剪枝消除微小变化，缩放调节大幅变化
贡献度分析（Contribution Analysis）：
- 删除影响 \(\alpha\)：构建初步合并模型ℳ_G，测量移除某层delta向量对ℳ_m原任务性能的下降
- 添加影响 \(\beta\)：将某层delta向量添加到基础模型ℳ_F，测量对ℳ_m原任务性能的提升
- 总贡献 \(c = \alpha + \beta\)，冲突度 \(\gamma_m^l = c_{m,m}^l - c_{m,G}^l\)
- 通过 \(\Gamma^l = \sum_m \gamma_m^l\) 排序找出冲突最严重的层
迭代冲突消除（Iterative Conflict Elimination）：按冲突严重度从高到低处理每层，分三种情况：
- 严重冲突（\(\gamma_A > 0\) 且 \(\gamma_B > 0\)）：两个能力都被合并损害→只保留贡献更大的delta向量，另一个置零
- 部分冲突（\(\gamma_A \cdot \gamma_B < 0\)）：一个模型的过拟合损害另一个→对冲突方的delta向量再次剪枝和缩放
- 互相增强（\(\gamma_A \leq 0\) 且 \(\gamma_B \leq 0\)）：合并后两个能力都提升→无需调整

损失函数 / 训练策略¶

完全无训练。Hi-Merging是参数后处理方法： - 基础模型：Qwen2-7B-Instruct - 微调使用LLaMA-Factory + LoRA（rank=8, alpha=16, dropout=0.01） - 合并使用mergekit工具 - 模型级\(p\)和\(s\)在0.1~1.0范围搜索（步长0.1） - 层级\(p\)和\(s\)设为模型级值的一半 - 评估指标：MCQA用Accuracy，QA用BLEU-4和ROUGE-1/2/L

实验关键数据¶

主实验¶

双语MCQA任务合并（英语MedQA + 中文CMExam）：

方法	MedQA (Acc)	CMExam (Acc)	Avg Impr.	Avg Rank
Qwen2-7B基础	51.41	74.62	-	17.0
单任务微调A(英语)	59.14	83.78	+13.40%	10.0
混合数据微调	60.08	88.22	+17.67%	3.5
Task Arithmetic	59.53	88.77	+17.67%	4.0
TIES	59.06	88.78	+17.31%	4.5
DARE	58.67	88.69	+16.93%	7.5
Hi-Merging	60.16	89.07	+18.41%	1.0

单语言多任务合并（英语MCQA+QA）：

方法	MedQA Acc	HCMagic BLEU-4	HCMagic ROUGE-L	Avg Impr.	Avg Rank
混合数据微调	59.22	35.60	20.46	+25.23%	8.3
TIES	60.47	35.79	20.37	+26.78%	4.2
DARE	58.44	36.58	20.39	+26.29%	4.4
Hi-Merging	60.16+	最优级别	最优级别	最佳	1.0

消融实验¶

配置	关键指标	说明
仅模型级处理	Avg Rank ~4	优于无处理，但不如层级完整方法
仅层级处理（无模型级）	Avg Rank ~3	缺少全局去噪，层级优化空间受限
完整Hi-Merging	Avg Rank 1.0	层级协同效果最优
\(p=0.1, s=0.9\) (单模型)	超过原模型	验证了剪枝+缩放对单模型也有益
不同基础模型（Yi-1.5-9B, Baichuan2-7B）	均有效但基础差异大	方法对基础模型选择不敏感

关键发现¶

Hi-Merging一致排名第一：在双语MCQA、单语多任务、跨语言跨任务三种设置下，平均排名均为1.0
超越混合数据微调：在大多数场景下，无训练的Hi-Merging优于需要额外训练的混合数据微调基线
现有方法随机性高：TIES和DARE偶尔在单个指标上表现最好，但缺乏引导下整体不稳定
10%参数即可保持性能：剪枝到仅保留10%的delta参数时，结合适当缩放仍能维持甚至提升性能
严重冲突层可识别并处理：贡献度分析有效识别出合并中最有问题的层，对应的三种冲突消除策略各有针对性

亮点与洞察¶

层级化思想的价值：将全局的模型合并问题分解为模型级去噪→层级冲突消除两步，让问题更可分析和控制
贡献度分析的创新：通过同时测量"删除影响"和"添加影响"来量化每层的冲突程度，比基于统计量的方法更直接
三种冲突类型的分类处理：严重冲突/部分冲突/互相增强的分类符合直觉，且提供了针对性的处理策略
剪枝+缩放的互补性：剪枝去小噪声、缩放调大参数，两者互补覆盖了微调过程中的两类常见问题
实际可用性高：基于mergekit实现，超参数搜索空间合理（10×10网格），对社区友好

局限与展望¶

两模型合并为主：虽然框架理论上可扩展到多模型，但实验主要是两两合并，多模型场景未充分验证
任务类型有限：仅在医疗领域的MCQA和QA任务上验证，未覆盖代码生成、推理等其他重要任务类型
贡献度分析的计算开销：需要对每一层进行删除/添加实验并评估性能，模型和任务组合多时开销不可忽视
LoRA微调假设：实验中微调使用LoRA，对全参数微调模型的合并效果未验证
未来可以探索自适应的\(p\)和\(s\)选择方法，减少超参数搜索开销

评分¶

新颖性: ⭐⭐⭐⭐ 层级化的冲突分析和消除框架在模型合并领域具有新意，贡献度分析方法有创新
实验充分度: ⭐⭐⭐⭐ 覆盖三种合并场景（双语/多任务/跨语言跨任务），与10+基线对比，含消融分析
写作质量: ⭐⭐⭐⭐ 公式推导清晰，三种冲突类型的可视化说明直观，整体结构良好
价值: ⭐⭐⭐⭐ 无训练方法超越有训练基线，对LLM社区的模型整合具有实际指导价值