Training-free LLM Merging for Multi-task Learning¶
会议: ACL 2025
arXiv: 2506.12379
代码: GitHub
领域: LLM模型合并
关键词: 模型合并, 多任务学习, 层级剪枝, 冲突消除, 无训练
一句话总结¶
提出Hi-Merging,一种层级迭代式无训练模型合并方法,通过模型级和层级的剪枝与缩放操作,结合贡献度分析来识别和解决参数冲突,将不同任务/语言的专用LLM合并为统一的多任务模型,在大多数场景下超越混合数据微调的基线。
研究背景与动机¶
随着LLaMA、Qwen等开源大模型的发布,Hugging Face上已有超过100万个针对不同任务和语言微调的专用LLM。一个自然的问题是:能否将这些专用模型合并为一个统一的多任务模型?
直接的方案是收集所有微调数据重新训练,但这面临三大困难: 1. 数据不可得:模型公开但微调数据通常不公开 2. 计算成本高:重新训练大模型需要巨大计算资源 3. 跷跷板效应:在混合数据上训练时,提升一个任务往往损害另一个任务
模型合并(Model Merging)因此成为有吸引力的替代方案,但现有方法面临两个核心挑战: - 噪声干扰:微调中因数据偏差或过拟合引入的噪声参数会损害合并后的泛化性 - 知识不对齐:独立训练的模型遵循不同的优化轨迹,导致参数空间中的知识对齐方式不同,直接合并会产生不兼容
现有方法如TIES-Merging、DARE等缺乏明确的冲突定位指导,性能随机性较高。本文提出的Hi-Merging通过层级分析系统性地解决这些问题。
方法详解¶
整体框架¶
Hi-Merging采用两阶段层级处理架构: 1. 模型级剪枝与缩放:对每个微调模型的delta向量整体去噪和调节 2. 层级剪枝与缩放:通过贡献度分析识别冲突最严重的层,迭代地消除参数冲突
核心数学基础是delta向量:\(\boldsymbol{\delta}_m = \boldsymbol{\theta}_m - \boldsymbol{\theta}_F\),即微调模型与基础模型的参数差异。
关键设计¶
-
模型级剪枝与缩放(Model-wise Pruning & Scaling):
- 剪枝阈值 \(p\):保留delta向量中绝对值最大的 \(p\%\) 分量,其余置零——消除因数据偏差引入的噪声参数
- 缩放因子 \(s\):将保留的delta向量乘以 \(s \in [0,1]\)——调节因过拟合产生的过激参数
- 实验验证:\(p=0.1, s=0.9\)(仅保留10%参数并缩放0.9)即可超过原模型性能
- 两个操作互补:剪枝消除微小变化,缩放调节大幅变化
-
贡献度分析(Contribution Analysis):
- 删除影响 \(\alpha\):构建初步合并模型ℳ_G,测量移除某层delta向量对ℳ_m原任务性能的下降
- 添加影响 \(\beta\):将某层delta向量添加到基础模型ℳ_F,测量对ℳ_m原任务性能的提升
- 总贡献 \(c = \alpha + \beta\),冲突度 \(\gamma_m^l = c_{m,m}^l - c_{m,G}^l\)
- 通过 \(\Gamma^l = \sum_m \gamma_m^l\) 排序找出冲突最严重的层
-
迭代冲突消除(Iterative Conflict Elimination):按冲突严重度从高到低处理每层,分三种情况:
- 严重冲突(\(\gamma_A > 0\) 且 \(\gamma_B > 0\)):两个能力都被合并损害→只保留贡献更大的delta向量,另一个置零
- 部分冲突(\(\gamma_A \cdot \gamma_B < 0\)):一个模型的过拟合损害另一个→对冲突方的delta向量再次剪枝和缩放
- 互相增强(\(\gamma_A \leq 0\) 且 \(\gamma_B \leq 0\)):合并后两个能力都提升→无需调整
损失函数 / 训练策略¶
完全无训练。Hi-Merging是参数后处理方法: - 基础模型:Qwen2-7B-Instruct - 微调使用LLaMA-Factory + LoRA(rank=8, alpha=16, dropout=0.01) - 合并使用mergekit工具 - 模型级\(p\)和\(s\)在0.1~1.0范围搜索(步长0.1) - 层级\(p\)和\(s\)设为模型级值的一半 - 评估指标:MCQA用Accuracy,QA用BLEU-4和ROUGE-1/2/L
实验关键数据¶
主实验¶
双语MCQA任务合并(英语MedQA + 中文CMExam):
| 方法 | MedQA (Acc) | CMExam (Acc) | Avg Impr. | Avg Rank |
|---|---|---|---|---|
| Qwen2-7B基础 | 51.41 | 74.62 | - | 17.0 |
| 单任务微调A(英语) | 59.14 | 83.78 | +13.40% | 10.0 |
| 混合数据微调 | 60.08 | 88.22 | +17.67% | 3.5 |
| Task Arithmetic | 59.53 | 88.77 | +17.67% | 4.0 |
| TIES | 59.06 | 88.78 | +17.31% | 4.5 |
| DARE | 58.67 | 88.69 | +16.93% | 7.5 |
| Hi-Merging | 60.16 | 89.07 | +18.41% | 1.0 |
单语言多任务合并(英语MCQA+QA):
| 方法 | MedQA Acc | HCMagic BLEU-4 | HCMagic ROUGE-L | Avg Impr. | Avg Rank |
|---|---|---|---|---|---|
| 混合数据微调 | 59.22 | 35.60 | 20.46 | +25.23% | 8.3 |
| TIES | 60.47 | 35.79 | 20.37 | +26.78% | 4.2 |
| DARE | 58.44 | 36.58 | 20.39 | +26.29% | 4.4 |
| Hi-Merging | 60.16+ | 最优级别 | 最优级别 | 最佳 | 1.0 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 仅模型级处理 | Avg Rank ~4 | 优于无处理,但不如层级完整方法 |
| 仅层级处理(无模型级) | Avg Rank ~3 | 缺少全局去噪,层级优化空间受限 |
| 完整Hi-Merging | Avg Rank 1.0 | 层级协同效果最优 |
| \(p=0.1, s=0.9\) (单模型) | 超过原模型 | 验证了剪枝+缩放对单模型也有益 |
| 不同基础模型(Yi-1.5-9B, Baichuan2-7B) | 均有效但基础差异大 | 方法对基础模型选择不敏感 |
关键发现¶
- Hi-Merging一致排名第一:在双语MCQA、单语多任务、跨语言跨任务三种设置下,平均排名均为1.0
- 超越混合数据微调:在大多数场景下,无训练的Hi-Merging优于需要额外训练的混合数据微调基线
- 现有方法随机性高:TIES和DARE偶尔在单个指标上表现最好,但缺乏引导下整体不稳定
- 10%参数即可保持性能:剪枝到仅保留10%的delta参数时,结合适当缩放仍能维持甚至提升性能
- 严重冲突层可识别并处理:贡献度分析有效识别出合并中最有问题的层,对应的三种冲突消除策略各有针对性
亮点与洞察¶
- 层级化思想的价值:将全局的模型合并问题分解为模型级去噪→层级冲突消除两步,让问题更可分析和控制
- 贡献度分析的创新:通过同时测量"删除影响"和"添加影响"来量化每层的冲突程度,比基于统计量的方法更直接
- 三种冲突类型的分类处理:严重冲突/部分冲突/互相增强的分类符合直觉,且提供了针对性的处理策略
- 剪枝+缩放的互补性:剪枝去小噪声、缩放调大参数,两者互补覆盖了微调过程中的两类常见问题
- 实际可用性高:基于mergekit实现,超参数搜索空间合理(10×10网格),对社区友好
局限与展望¶
- 两模型合并为主:虽然框架理论上可扩展到多模型,但实验主要是两两合并,多模型场景未充分验证
- 任务类型有限:仅在医疗领域的MCQA和QA任务上验证,未覆盖代码生成、推理等其他重要任务类型
- 贡献度分析的计算开销:需要对每一层进行删除/添加实验并评估性能,模型和任务组合多时开销不可忽视
- LoRA微调假设:实验中微调使用LoRA,对全参数微调模型的合并效果未验证
- 未来可以探索自适应的\(p\)和\(s\)选择方法,减少超参数搜索开销
相关工作与启发¶
- Task Arithmetic (Ilharco et al., 2023):提出delta向量合并的基础框架,Hi-Merging在此基础上加入层级优化
- TIES-Merging (Yadav et al., 2023) 和 DARE (Yu et al., 2024):通过不同策略减少参数冲突,但缺乏冲突定位
- DELLA (Deep et al., 2024):考虑了参数幅度,但仍是全局处理
- Model Breadcrumbs (Davari & Belilovsky, 2024):逐步稀疏化,但不涉及层级分析
- Layer Swapping (Bandarkar et al., 2025):层级交换策略,但不涉及细粒度冲突分析
- 启发:模型合并不应是一步到位的粗暴操作,层级分析和迭代优化能显著减少冲突
评分¶
- 新颖性: ⭐⭐⭐⭐ 层级化的冲突分析和消除框架在模型合并领域具有新意,贡献度分析方法有创新
- 实验充分度: ⭐⭐⭐⭐ 覆盖三种合并场景(双语/多任务/跨语言跨任务),与10+基线对比,含消融分析
- 写作质量: ⭐⭐⭐⭐ 公式推导清晰,三种冲突类型的可视化说明直观,整体结构良好
- 价值: ⭐⭐⭐⭐ 无训练方法超越有训练基线,对LLM社区的模型整合具有实际指导价值
相关论文¶
- [ACL 2025] A Training-free LLM-based Approach to General Chinese Character Error Correction
- [ACL 2025] Cheaper and Better Diffusion Language Model via Task-Specific Training
- [ACL 2025] Token Prepending: A Training-Free Approach for Eliciting Better Sentence Embeddings from LLMs
- [ACL 2025] SkillAggregation: Reference-free LLM-Dependent Aggregation
- [ACL 2025] MasRouter: Learning to Route LLMs for Multi-Agent Systems