ProFuser: Progressive Fusion of Large Language Models¶

会议: AAAI 2026
arXiv: 2408.04998
代码: https://github.com/Stycoo/ProFuser
领域: LLM/NLP
关键词: 模型融合, 知识蒸馏, 双模式评估, 渐进式训练

一句话总结¶

提出ProFuser，通过双模式优势评估（训练模式Min-CE + 推理模式Reward Model投票）全面识别各源模型在不同维度的优势，再用渐进式融合策略（先推理模式→后训练模式的easy-to-hard课程）将异构LLM的互补能力整合到单个目标模型中，在知识/推理/安全6个基准上平均提升1.65%。

研究背景与动机¶

领域现状：将多个LLM的互补能力融合到一个统一模型是提升性能的高效路径。FuseLLM开创性地通过知识蒸馏实现了异构LLM融合。模型合并方法（Task Arithmetic/TIES）需要同构架构。
现有痛点：FuseLLM仅用训练模式的Min-CE（teacher-forcing下的最小交叉熵）评估模型优势。实证发现Vicuna在训练模式下68%样本优于Llama-2-Chat，但推理模式下仅45%——token预测能力≠回复生成质量，单一模式评估遗漏了重要的互补信息。
核心矛盾：同时优化两种模式时效果不佳，因为训练模式用GPT-4的详细GT输出，推理模式用源模型的简短输出，复杂度差异大。
切入角度：先从简单的推理模式开始（源模型输出较简短），再过渡到复杂的训练模式（GT输出更详细），实现easy-to-hard渐进式融合。
核心idea一句话：双模式全面评估各源模型优势+渐进式从易到难融合=更充分的能力整合。

方法详解¶

整体框架¶

给定K个异构源LLM和一个目标LLM，对每条指令同时在训练模式（Min-CE选最优分布）和推理模式（RM投票选最优回复）评估各模型优势，通过两阶段渐进融合转移能力。

关键设计¶

训练模式优势评估：对每条(指令, GT回复)，teacher-forcing下计算各源模型交叉熵，选最低CE的模型 \(M^{MinCE} = \arg\min(\{L_{SFT}^{\theta_j}\})\)，其logits分布作为训练模式优势信息。
推理模式优势评估：各源模型对指令生成回复，通过多个Reward Model投票选出最佳回复 \(\tilde{y}_i^B = \arg\max(\text{RM}_{Vote}(\{\tilde{y}_i^j\}))\)，及其logits分布作为推理模式优势信息。
渐进式融合：融合损失 \(L_{Fuse} = L_{SFT} + \beta D_{KL}(P_S, P_T)\)。总目标 \(L_{ProFuser} = w_1 L_{Infer-Fuse} + w_2 L_{Train-Fuse}\)。阶段1：\(w_1=1, w_2=0\)；阶段2：\(w_1=0.1, w_2=1\)。

实验关键数据¶

主实验¶

方法	MMLU	ARC	GSM8K	TruthfulQA	平均
Vicuna-7B-v1.5	51.17	53.75	15.80	50.37	53.46
FuseLLM	51.48	54.61	18.80	50.72	54.53
ProFuser	51.85	55.46	18.70	51.85	55.11

消融实验¶

配置	平均	说明
ProFuser（先推理后训练）	55.11	最优
ReverseFuse（先训练后推理）	54.30	反向更差
SimulFuse（同时优化）	54.56	不如渐进

关键发现¶

渐进式 > 同时优化 > 反向，验证easy-to-hard策略有效
即使较弱源模型(MPT)也能贡献正面效果
TruthfulQA提升最大(+1.48%)

亮点与洞察¶

双模式评估发现了单模式遗漏的优势：训练优势≠推理优势
渐进式easy-to-hard融合利用了两种模式输出复杂度的天然差异

局限性 / 可改进方向¶

仅在7B模型上验证，更大规模效果未知
需要生成所有源模型推理输出+GT logits，数据准备成本高
w1/w2调度较手动，可探索自适应权重

评分¶

新颖性: ⭐⭐⭐⭐ 双模式评估+渐进融合有创意
实验充分度: ⭐⭐⭐⭐ 6基准+多消融
写作质量: ⭐⭐⭐⭐ 动机分析清晰
价值: ⭐⭐⭐⭐ 为异构LLM融合提供更全面方法论