FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization¶

会议: ICCV 2025
arXiv: 2503.12649
代码: 有（论文中提到open-sourced）
领域: 模型合并 / 多任务学习
关键词: 模型合并, Frank-Wolfe优化, 多任务学习, 可扩展性, 大语言模型

一句话总结¶

将模型合并形式化为约束优化问题，引入Frank-Wolfe优化启发的FW-Merging方法，通过迭代选择最相关模型并局部合并，实现在大规模黑盒模型池中的可扩展、鲁棒合并，合并20个ViT模型时超越数据感知方法Adamerging 8.39%。

研究背景与动机¶

模型合并(Model Merging)作为多任务学习的数据高效替代方案日益重要。然而随着开源AI生态的快速发展，现有方法面临两个关键限制：

缺乏对未知模型的适应性：现有方法基于已知的模型能力信息调整合并系数，对来源多样、信息部分未知的模型效果差，无法区分高质量与低质量微调模型

无法有效扩展：当合并大量未知model checkpoint时，性能严重退化。作者的分析实验显示，添加16个无关模型时性能下降18.9%-64.4%

理想的合并方法应满足两个基本缩放属性：(1) 添加无关模型不影响性能；(2) 添加相关模型性能稳步提升。

方法详解¶

整体框架¶

FW-Merging包含三个核心阶段的迭代过程： 1. 相关性评估：利用当前模型的梯度构建目标函数的线性近似，揭示最有益的改进方向 2. 模型选择：通过最小化线性近似，从候选池中选择最相关的checkpoint 3. 知识整合：使用正交合并方法将选中的checkpoint整合到当前模型

关键设计¶

约束优化形式化：将模型合并问题重新定义为在凸包 \(\mathcal{M} = \text{conv}(\{\theta_i^*\}_{i=1}^n)\) 上最小化目标函数 \(\ell(\theta)\) 的约束优化问题。通过Proposition 1证明这与传统的系数优化形式等价。核心优势在于Linear Minimization Oracle (LMO)被简化为：

\[\text{LMO}(\{\theta_i^*\}, \theta_t) = \arg\min_{s \in \{\theta_1^*,...,\theta_n^*\}} \langle \nabla\ell(\theta_t), s \rangle\]

即在有限顶点集上做内积最小化，计算高效。

Hard FW vs. Soft FW：
- Hard LMO：选择线性子问题的argmin作为合并方向，简单直接
- Soft LMO：选择top-k个顶点，对它们的合并系数做内部优化（投影梯度下降到单纯形上），更新公式为 \(\theta_{t+1} = \theta_t + \sum_{j=1}^k \lambda_j^*(\tilde{s}_j - \theta_t)\)
- Theorem 1证明Soft FW收敛速率为 \(O(1/T)\)，优于vanilla的 \(O(1/\sqrt{T})\)
Task-wise vs. Layer-wise LMO：
- Task-wise LMO：将整个模型权重向量化后求解LMO
- Layer-wise LMO：约束集定义为各层凸包的笛卡尔积 \(\mathcal{M} = \mathcal{M}_1 \times \cdots \times \mathcal{M}_L\)，每层独立选择最佳模型，可视为块坐标Frank-Wolfe算法
- \(\text{FW}_{hard}\) 更适合layer-wise（NLP判别任务提升7.2分），\(\text{FW}_{soft}\) 更适合task-wise（因为内部已做层级系数优化）

损失函数 / 训练策略¶

目标函数：任务相关的交叉熵损失（训练数据上最小化）
\(\text{FW}_{hard}\)：NLP 10轮迭代，CV 3轮迭代，从Task Arithmetic结果初始化
\(\text{FW}_{soft}\)：CV 15轮迭代，从预训练模型初始化
每个任务仅需100个训练样本（而传统MTL需2.9K样本/任务）
恒定内存开销：每次仅加载固定数量模型，无需同时存储所有模型

实验关键数据¶

主实验¶

视觉任务（合并20个ViT-B/32）：

方法	SUN397	Cars	GTSRB	DTD	平均
Pretrained	62.3	59.7	32.6	43.8	49.6
Task Arithmetic	20.4	12.2	29.8	22.3	21.2
Ties-Merging	51.0	36.2	57.7	40.6	46.4
Adamerging	66.4	70.1	95.1	64.0	73.9
Surgery	69.7	71.8	96.6	73.4	77.9
FW_soft (Ours)	72.9	74.8	96.8	76.0	80.1

语言任务：

方法	4 判别任务 (8模型)	3 生成任务 (16模型)	平均规范化得分
Traditional MTL	73.1	81.2	77.2
Task Arithmetic	80.8	75.9	78.4
Ties-Merging	64.3	78.5	71.4
FW_hard (Ours)	85.4	81.1	83.1

消融实验¶

扩展性实验（添加无关/相关模型的影响）：

#模型	无关模型场景		相关模型场景
	Task Arith.	FW_soft	Task Arith.	FW_soft
4	70.3	74.1	59.2	59.2
12	47.9	74.1	52.3	67.5
20	21.2	74.2	36.3	68.3

FW-Merging展现了理想的缩放特性：16个无关模型加入后性能不衰退（74.1→74.2），16个相关模型加入后性能提升15.3%。

设计变体消融：

系数	方法	LMO	CV得分
优化	FW_soft	Task-wise	80.1
优化	FW_soft	Layer-wise	79.7
未优化	FW_soft	Task-wise	70.3
-	FW_hard	Layer-wise	74.0

优化合并系数最多提升9.9分；Task-wise LMO略优于Layer-wise（对FW_soft）。

关键发现¶

FW-Merging仅需每任务100个样本和2分钟时间，性能超越需要2.9K样本和4.2小时的传统MTL
线性近似值最小的checkpoint恰好是与目标任务最相关的模型（Figure 3验证），说明梯度内积是可靠的模型相关性指标
对噪声模型（不同预训练起点初始化的模型）也具有很强的鲁棒性
FW-Merging可与其他合并函数（如Ties-Merging）配合使用进一步提升

亮点与洞察¶

优雅的理论框架：将模型合并与经典Frank-Wolfe优化算法对应，提供了收敛性保证和清晰的几何直觉
实用的可扩展性：恒定内存开销 + 对无关模型的鲁棒性，这对HuggingFace生态下的大规模模型合并至关重要
极高的数据效率：每任务仅100个样本，适合隐私敏感和数据稀缺场景
正交性强：作为通用框架可与现有合并方法结合

局限与展望¶

内部优化（Soft FW的系数求解）可能增加总时间成本
仅使用Task Arithmetic作为MergeFn以保证凸包可行性，更复杂的合并函数可能违反约束但实际效果更好
未在更大规模模型（如70B+）上验证
Layer-wise vs Task-wise的选择缺乏自适应机制，需要根据场景手动选择
目标函数设计依赖任务对齐的少量数据，完全无监督场景不适用

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将经典优化算法与模型合并创新结合，理论贡献扎实
实验充分度: ⭐⭐⭐⭐ 覆盖NLP判别/生成+CV任务，扩展性分析详尽，消融完整
写作质量: ⭐⭐⭐⭐⭐ 数学推导严谨，直觉图示清晰，理论与实验结合紧密
价值: ⭐⭐⭐⭐⭐ 开创了可扩展模型合并的新范式，对开源模型生态极具实用价值