跳转至

Training-free LLM Merging for Multi-task Learning

会议: ACL 2025
arXiv: 2506.12379
代码: GitHub
领域: LLM模型合并
关键词: 模型合并, 多任务学习, 层级剪枝, 冲突消除, 无训练

一句话总结

提出Hi-Merging,一种层级迭代式无训练模型合并方法,通过模型级和层级的剪枝与缩放操作,结合贡献度分析来识别和解决参数冲突,将不同任务/语言的专用LLM合并为统一的多任务模型,在大多数场景下超越混合数据微调的基线。

研究背景与动机

随着LLaMA、Qwen等开源大模型的发布,Hugging Face上已有超过100万个针对不同任务和语言微调的专用LLM。一个自然的问题是:能否将这些专用模型合并为一个统一的多任务模型?

直接的方案是收集所有微调数据重新训练,但这面临三大困难: 1. 数据不可得:模型公开但微调数据通常不公开 2. 计算成本高:重新训练大模型需要巨大计算资源 3. 跷跷板效应:在混合数据上训练时,提升一个任务往往损害另一个任务

模型合并(Model Merging)因此成为有吸引力的替代方案,但现有方法面临两个核心挑战: - 噪声干扰:微调中因数据偏差或过拟合引入的噪声参数会损害合并后的泛化性 - 知识不对齐:独立训练的模型遵循不同的优化轨迹,导致参数空间中的知识对齐方式不同,直接合并会产生不兼容

现有方法如TIES-Merging、DARE等缺乏明确的冲突定位指导,性能随机性较高。本文提出的Hi-Merging通过层级分析系统性地解决这些问题。

方法详解

整体框架

Hi-Merging采用两阶段层级处理架构: 1. 模型级剪枝与缩放:对每个微调模型的delta向量整体去噪和调节 2. 层级剪枝与缩放:通过贡献度分析识别冲突最严重的层,迭代地消除参数冲突

核心数学基础是delta向量:\(\boldsymbol{\delta}_m = \boldsymbol{\theta}_m - \boldsymbol{\theta}_F\),即微调模型与基础模型的参数差异。

关键设计

  1. 模型级剪枝与缩放(Model-wise Pruning & Scaling)

    • 剪枝阈值 \(p\):保留delta向量中绝对值最大的 \(p\%\) 分量,其余置零——消除因数据偏差引入的噪声参数
    • 缩放因子 \(s\):将保留的delta向量乘以 \(s \in [0,1]\)——调节因过拟合产生的过激参数
    • 实验验证:\(p=0.1, s=0.9\)(仅保留10%参数并缩放0.9)即可超过原模型性能
    • 两个操作互补:剪枝消除微小变化,缩放调节大幅变化
  2. 贡献度分析(Contribution Analysis)

    • 删除影响 \(\alpha\):构建初步合并模型ℳ_G,测量移除某层delta向量对ℳ_m原任务性能的下降
    • 添加影响 \(\beta\):将某层delta向量添加到基础模型ℳ_F,测量对ℳ_m原任务性能的提升
    • 总贡献 \(c = \alpha + \beta\),冲突度 \(\gamma_m^l = c_{m,m}^l - c_{m,G}^l\)
    • 通过 \(\Gamma^l = \sum_m \gamma_m^l\) 排序找出冲突最严重的层
  3. 迭代冲突消除(Iterative Conflict Elimination):按冲突严重度从高到低处理每层,分三种情况:

    • 严重冲突\(\gamma_A > 0\)\(\gamma_B > 0\)):两个能力都被合并损害→只保留贡献更大的delta向量,另一个置零
    • 部分冲突\(\gamma_A \cdot \gamma_B < 0\)):一个模型的过拟合损害另一个→对冲突方的delta向量再次剪枝和缩放
    • 互相增强\(\gamma_A \leq 0\)\(\gamma_B \leq 0\)):合并后两个能力都提升→无需调整

损失函数 / 训练策略

完全无训练。Hi-Merging是参数后处理方法: - 基础模型:Qwen2-7B-Instruct - 微调使用LLaMA-Factory + LoRA(rank=8, alpha=16, dropout=0.01) - 合并使用mergekit工具 - 模型级\(p\)\(s\)在0.1~1.0范围搜索(步长0.1) - 层级\(p\)\(s\)设为模型级值的一半 - 评估指标:MCQA用Accuracy,QA用BLEU-4和ROUGE-1/2/L

实验关键数据

主实验

双语MCQA任务合并(英语MedQA + 中文CMExam):

方法 MedQA (Acc) CMExam (Acc) Avg Impr. Avg Rank
Qwen2-7B基础 51.41 74.62 - 17.0
单任务微调A(英语) 59.14 83.78 +13.40% 10.0
混合数据微调 60.08 88.22 +17.67% 3.5
Task Arithmetic 59.53 88.77 +17.67% 4.0
TIES 59.06 88.78 +17.31% 4.5
DARE 58.67 88.69 +16.93% 7.5
Hi-Merging 60.16 89.07 +18.41% 1.0

单语言多任务合并(英语MCQA+QA):

方法 MedQA Acc HCMagic BLEU-4 HCMagic ROUGE-L Avg Impr. Avg Rank
混合数据微调 59.22 35.60 20.46 +25.23% 8.3
TIES 60.47 35.79 20.37 +26.78% 4.2
DARE 58.44 36.58 20.39 +26.29% 4.4
Hi-Merging 60.16+ 最优级别 最优级别 最佳 1.0

消融实验

配置 关键指标 说明
仅模型级处理 Avg Rank ~4 优于无处理,但不如层级完整方法
仅层级处理(无模型级) Avg Rank ~3 缺少全局去噪,层级优化空间受限
完整Hi-Merging Avg Rank 1.0 层级协同效果最优
\(p=0.1, s=0.9\) (单模型) 超过原模型 验证了剪枝+缩放对单模型也有益
不同基础模型(Yi-1.5-9B, Baichuan2-7B) 均有效但基础差异大 方法对基础模型选择不敏感

关键发现

  1. Hi-Merging一致排名第一:在双语MCQA、单语多任务、跨语言跨任务三种设置下,平均排名均为1.0
  2. 超越混合数据微调:在大多数场景下,无训练的Hi-Merging优于需要额外训练的混合数据微调基线
  3. 现有方法随机性高:TIES和DARE偶尔在单个指标上表现最好,但缺乏引导下整体不稳定
  4. 10%参数即可保持性能:剪枝到仅保留10%的delta参数时,结合适当缩放仍能维持甚至提升性能
  5. 严重冲突层可识别并处理:贡献度分析有效识别出合并中最有问题的层,对应的三种冲突消除策略各有针对性

亮点与洞察

  • 层级化思想的价值:将全局的模型合并问题分解为模型级去噪→层级冲突消除两步,让问题更可分析和控制
  • 贡献度分析的创新:通过同时测量"删除影响"和"添加影响"来量化每层的冲突程度,比基于统计量的方法更直接
  • 三种冲突类型的分类处理:严重冲突/部分冲突/互相增强的分类符合直觉,且提供了针对性的处理策略
  • 剪枝+缩放的互补性:剪枝去小噪声、缩放调大参数,两者互补覆盖了微调过程中的两类常见问题
  • 实际可用性高:基于mergekit实现,超参数搜索空间合理(10×10网格),对社区友好

局限与展望

  1. 两模型合并为主:虽然框架理论上可扩展到多模型,但实验主要是两两合并,多模型场景未充分验证
  2. 任务类型有限:仅在医疗领域的MCQA和QA任务上验证,未覆盖代码生成、推理等其他重要任务类型
  3. 贡献度分析的计算开销:需要对每一层进行删除/添加实验并评估性能,模型和任务组合多时开销不可忽视
  4. LoRA微调假设:实验中微调使用LoRA,对全参数微调模型的合并效果未验证
  5. 未来可以探索自适应的\(p\)\(s\)选择方法,减少超参数搜索开销

相关工作与启发

  • Task Arithmetic (Ilharco et al., 2023):提出delta向量合并的基础框架,Hi-Merging在此基础上加入层级优化
  • TIES-Merging (Yadav et al., 2023)DARE (Yu et al., 2024):通过不同策略减少参数冲突,但缺乏冲突定位
  • DELLA (Deep et al., 2024):考虑了参数幅度,但仍是全局处理
  • Model Breadcrumbs (Davari & Belilovsky, 2024):逐步稀疏化,但不涉及层级分析
  • Layer Swapping (Bandarkar et al., 2025):层级交换策略,但不涉及细粒度冲突分析
  • 启发:模型合并不应是一步到位的粗暴操作,层级分析和迭代优化能显著减少冲突

评分

  • 新颖性: ⭐⭐⭐⭐ 层级化的冲突分析和消除框架在模型合并领域具有新意,贡献度分析方法有创新
  • 实验充分度: ⭐⭐⭐⭐ 覆盖三种合并场景(双语/多任务/跨语言跨任务),与10+基线对比,含消融分析
  • 写作质量: ⭐⭐⭐⭐ 公式推导清晰,三种冲突类型的可视化说明直观,整体结构良好
  • 价值: ⭐⭐⭐⭐ 无训练方法超越有训练基线,对LLM社区的模型整合具有实际指导价值

相关论文