ProFuser: Progressive Fusion of Large Language Models¶
会议: AAAI 2026
arXiv: 2408.04998
代码: https://github.com/Stycoo/ProFuser
领域: LLM/NLP
关键词: 模型融合, 知识蒸馏, 双模式评估, 渐进式训练
一句话总结¶
提出ProFuser,通过双模式优势评估(训练模式Min-CE + 推理模式Reward Model投票)全面识别各源模型在不同维度的优势,再用渐进式融合策略(先推理模式→后训练模式的easy-to-hard课程)将异构LLM的互补能力整合到单个目标模型中,在知识/推理/安全6个基准上平均提升1.65%。
研究背景与动机¶
- 领域现状:将多个LLM的互补能力融合到一个统一模型是提升性能的高效路径。FuseLLM开创性地通过知识蒸馏实现了异构LLM融合。模型合并方法(Task Arithmetic/TIES)需要同构架构。
- 现有痛点:FuseLLM仅用训练模式的Min-CE(teacher-forcing下的最小交叉熵)评估模型优势。实证发现Vicuna在训练模式下68%样本优于Llama-2-Chat,但推理模式下仅45%——token预测能力≠回复生成质量,单一模式评估遗漏了重要的互补信息。
- 核心矛盾:同时优化两种模式时效果不佳,因为训练模式用GPT-4的详细GT输出,推理模式用源模型的简短输出,复杂度差异大。
- 切入角度:先从简单的推理模式开始(源模型输出较简短),再过渡到复杂的训练模式(GT输出更详细),实现easy-to-hard渐进式融合。
- 核心idea一句话:双模式全面评估各源模型优势+渐进式从易到难融合=更充分的能力整合。
方法详解¶
整体框架¶
给定K个异构源LLM和一个目标LLM,对每条指令同时在训练模式(Min-CE选最优分布)和推理模式(RM投票选最优回复)评估各模型优势,通过两阶段渐进融合转移能力。
关键设计¶
-
训练模式优势评估:对每条(指令, GT回复),teacher-forcing下计算各源模型交叉熵,选最低CE的模型 \(M^{MinCE} = \arg\min(\{L_{SFT}^{\theta_j}\})\),其logits分布作为训练模式优势信息。
-
推理模式优势评估:各源模型对指令生成回复,通过多个Reward Model投票选出最佳回复 \(\tilde{y}_i^B = \arg\max(\text{RM}_{Vote}(\{\tilde{y}_i^j\}))\),及其logits分布作为推理模式优势信息。
-
渐进式融合:融合损失 \(L_{Fuse} = L_{SFT} + \beta D_{KL}(P_S, P_T)\)。总目标 \(L_{ProFuser} = w_1 L_{Infer-Fuse} + w_2 L_{Train-Fuse}\)。阶段1:\(w_1=1, w_2=0\);阶段2:\(w_1=0.1, w_2=1\)。
实验关键数据¶
主实验¶
| 方法 | MMLU | ARC | GSM8K | TruthfulQA | 平均 |
|---|---|---|---|---|---|
| Vicuna-7B-v1.5 | 51.17 | 53.75 | 15.80 | 50.37 | 53.46 |
| FuseLLM | 51.48 | 54.61 | 18.80 | 50.72 | 54.53 |
| ProFuser | 51.85 | 55.46 | 18.70 | 51.85 | 55.11 |
消融实验¶
| 配置 | 平均 | 说明 |
|---|---|---|
| ProFuser(先推理后训练) | 55.11 | 最优 |
| ReverseFuse(先训练后推理) | 54.30 | 反向更差 |
| SimulFuse(同时优化) | 54.56 | 不如渐进 |
关键发现¶
- 渐进式 > 同时优化 > 反向,验证easy-to-hard策略有效
- 即使较弱源模型(MPT)也能贡献正面效果
- TruthfulQA提升最大(+1.48%)
亮点与洞察¶
- 双模式评估发现了单模式遗漏的优势:训练优势≠推理优势
- 渐进式easy-to-hard融合利用了两种模式输出复杂度的天然差异
局限性 / 可改进方向¶
- 仅在7B模型上验证,更大规模效果未知
- 需要生成所有源模型推理输出+GT logits,数据准备成本高
- w1/w2调度较手动,可探索自适应权重
评分¶
- 新颖性: ⭐⭐⭐⭐ 双模式评估+渐进融合有创意
- 实验充分度: ⭐⭐⭐⭐ 6基准+多消融
- 写作质量: ⭐⭐⭐⭐ 动机分析清晰
- 价值: ⭐⭐⭐⭐ 为异构LLM融合提供更全面方法论
一句话总结¶
提出渐进式模型融合策略 ProFuser,通过多阶段逐步融合多个 LLM 的参数与知识,在保留各模型优势的同时生成统一的强力模型。
研究背景与动机¶
不同 LLM 往往在不同任务上各有优势(如 A 模型擅长代码、B 模型擅长推理),如何将多个模型整合为一个统一模型是实际部署的重要需求。简单的权重平均或一次性蒸馏容易导致知识冲突和能力退化。ProFuser 借鉴课程学习思想,设计了从浅层到深层、从简单到复杂的渐进式融合策略,逐步将多个源模型的知识融入目标模型,避免突然的分布偏移。
方法详解¶
关键设计¶
- 渐进式层级融合:分阶段融合源模型,先融合浅层(embedding + 前几层 Transformer),稳定后再融合中深层,减少一次性融合的冲突
- 任务感知路由:在融合过程中引入轻量路由机制,根据输入 token 动态决定各层更多参考哪个源模型的参数
- 一致性蒸馏损失:融合后的模型同时对齐多个源模型的输出分布,使用 KL 散度加权组合作为训练目标
实验关键数据¶
| 方法 | MMLU | HumanEval | GSM8K | 平均 |
|---|---|---|---|---|
| 最佳单模型 | 71.2 | 68.3 | 74.5 | 71.3 |
| 权重平均 | 65.8 | 61.2 | 68.1 | 65.0 |
| 一次性蒸馏 | 69.4 | 65.7 | 72.3 | 69.1 |
| ProFuser | 73.1 | 70.8 | 76.2 | 73.4 |
亮点与洞察¶
- 渐进式融合不仅超越了单一最佳模型,还避免了权重平均的灾难性退化,验证了"慢融合优于快融合"的直觉
- 任务感知路由的分析表明,浅层各模型贡献相近,而深层差异明显,提示不同模型的能力差异主要编码在深层
评分¶
| 维度 | 评分 | 理由 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 渐进式融合 + 任务路由的组合设计新颖 |
| 技术深度 | ⭐⭐⭐⭐ | 多阶段训练策略设计精细,消融分析扎实 |
| 实验完整度 | ⭐⭐⭐⭐ | 涵盖知识、代码、数学多维度评测 |
| 实用价值 | ⭐⭐⭐⭐ | 模型合并是工业部署的真实需求 |