Weight Weaving: Parameter Pooling for Data-Free Model Merging¶

会议: NeurIPS 2025
arXiv: 2510.13921
代码: https://github.com/VirtualSpaceman/weight_weaving (有)
领域: 模型压缩 / 模型合并
关键词: 模型合并, 无数据, 缩放因子, 参数池化, 任务向量

一句话总结¶

本文提出Weight Weaving，一种即插即用的无数据模型合并增强方法，通过在缩放因子搜索空间上对模型参数进行池化操作（如平均、随机选择），消除了对评估数据的依赖，在多任务学习、持续学习和域泛化三个场景中平均准确率最高提升15.9个百分点。

研究背景与动机¶

模型合并（Model Merging）通过参数级别的操作将多个专家模型整合为一个统一模型，无需重训练。Task Arithmetic等经典方法通过缩放因子λ加权任务向量（fine-tuned与pre-trained权重的差值）并加回预训练模型。然而，λ的选择对性能影响极大：

核心矛盾：几乎所有现有方法都依赖缩放因子λ，而正确设置λ通常需要访问评估集数据（"特权数据"），这在实际部署中往往不可得。研究者常常错误地在评估集上调λ，这在真实场景中不可行。仅有的无数据方案（如MetaGPT）仅限于Task Arithmetic且不可推广。

本文的insight：与其寻找一个最优λ，不如在λ的搜索空间上对所有候选参数做池化（类似集成的思想）。这样既不需要数据来选择λ，又能从多个λ值中聚合信息。

方法详解¶

整体框架¶

Weight Weaving接收三个用户定义的输入：(1) 基础合并函数f_merge（如TIES、PCB等现有方法）；(2) 缩放因子搜索空间λ_search；(3) 池化函数f_pooling（如平均、随机选择或其他合并方法）。算法流程分三步： 1. 计算delta weights：Δw = {θ_t - θ_pre} 2. 对搜索空间中每个λ_i，用f_merge生成一组增强权重（augmented weights） 3. 将delta weights和augmented weights合并为集合A*，用f_pooling池化后加回预训练模型

关键设计¶

参数级池化而非模型级选择：传统方法选择一个λ产生一个合并模型。Weight Weaving对搜索空间中所有λ值产生的参数做逐元素池化。直觉是：不同任务的最优λ不同，通过池化可以"边际化"掉对λ的依赖。
协作变体（Collaborative Variant）：池化不仅在augmented weights上操作，还加入原始delta weights形成更丰富的参数集A* = Δw ∪ A。实验发现纳入更广泛的参数来源有助于提升最终性能。
与现有方法正交：Weight Weaving作为外层包裹，可以组合任何依赖λ的合并方法。它不修改f_merge的内部逻辑，只在其外部对不同λ的输出做聚合。搜索空间也不限于标量λ，可以是类别变量、概率分布甚至函数。

池化函数选项¶

平均池化（Average）：逐参数算术平均
随机均匀选择（Random Uniform）：每个参数位置独立地从N个候选值中等概率选一个
MagMax池化：每个参数位置选绝对值最大的值

实验关键数据¶

主实验：Data-free设置下Weight Weaving的增强效果（平均准确率）¶

基础方法	原始（无数据）	+Weight Weaving	提升
Breadcrumbs	52.17	68.11	+15.94
MagMax	60.14	69.77	+9.63
TIES	68.39	71.21	+2.82
PCB	71.41	72.10	+0.69
TSV	73.11	74.01	+0.90
ISO-C	72.38	73.78	+1.40

分场景详细结果（ViT-B-32/B-16/L-14三模型均值）¶

方法	多任务学习	持续学习	域泛化
TIES	78.18	72.95	54.04
TIES+Ours	78.62	74.79	60.21
PCB	81.21	74.39	58.63
PCB+Ours	80.92	74.86	60.53
TSV	87.10	75.32	56.91
TSV+Ours	85.65	75.48	60.89

池化函数消融¶

池化函数	Breadcrumbs	TIES	PCB	TSV	ISO-C
Average	68.11	71.21	72.10	74.01	73.78
Random	68.11	71.21	72.08	73.64	73.61
MagMax	51.93	54.56	50.36	55.72	64.34

最优λ分布分析¶

场景	λ分布特点	Weight Weaving效果
多任务学习	集中在单一值（如ISO-C集中在1.0）	提升有限或略降
持续学习	广泛分散在整个搜索空间	显著提升
域泛化	广泛分散	显著提升

关键发现¶

Weight Weaving在持续学习和域泛化场景中提升最大，这恰好是最优λ跨任务分散最广的场景
当最优λ集中在单一值时（如多任务学习中的ISO-C），池化效果有限甚至略降
Average和Random池化效果相近，但MagMax池化效果极差——因为它倾向于选择最大λ对应的参数
持续学习中的顺序微调引入了任务权重之间的相关性（与多任务学习中的近正交性形成对比），这是一个独特挑战
原始性能较弱的方法（如Breadcrumbs）获益最大（+15.94），已经很强的方法（如TSV）获益较小（+0.90）

亮点与洞察¶

极度简单但有效：Weight Weaving的核心思想就是"试多个λ然后做平均"，概念上非常直观，实现简单
真正的无数据方案：不需要验证集、评估集、测试数据或任何特权信息，在实际部署中切实可行
即插即用的模块化设计：作为外层包裹，可以增强任何依赖λ的合并方法，无需修改原方法
对持续学习的观察有启发性：发现顺序微调导致任务向量之间高度相关，这为设计持续学习专用的合并方法提供了方向
最优λ分布分析：揭示了一个有用的诊断工具——如果最优λ在任务间高度分散，则Weight Weaving最有效

局限与展望¶

当最优λ集中在单一值时，池化可能引入次优参数导致性能略降（如ISO-C在多任务学习中）
如何在不使用特权数据的情况下过滤掉搜索空间中的次优λ值仍是开放问题
计算开销与搜索空间大小和f_merge复杂度成正比，大规模模型（如billions参数）可能需要并行计算
实验仅在视觉任务（ViT）上验证，缺乏NLP等其他模态的验证
Average池化虽简单有效，但可能不是最优选择，自适应加权池化是一个自然的改进方向
搜索空间的设计（范围和步长）目前依赖人工经验，自动确定搜索空间值得研究

评分¶

新颖性: ⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐