Revisiting Model Stitching In the Foundation Model Era¶
会议: CVPR 2026
arXiv: 2603.12433
代码: 无
领域: 多模态VLM / 模型融合
关键词: 模型拼接, 视觉基础模型, 表示兼容性, VFM Stitch Tree, CLIP, DINOv2
一句话总结¶
系统研究异质视觉基础模型(CLIP/DINOv2/SigLIP2/DINOv3)之间的"可拼接性",发现通过Final Feature Matching预训练stitch层可实现可靠拼接,且拼接模型一致超越self-stitch基线,并提出VFM Stitch Tree(VST)在仅4.3%额外开销下恢复45%的多VFM性能增益。
背景与动机¶
不同VFM(CLIP、DINOv2、SigLIP2)使用不同数据、目标和模态组合训练,但它们的内部表示是否兼容?模型拼接(model stitching)——将一个模型的前层连接到另一个模型的后层——是探索这一问题的有力工具。先前研究表明在同一数据集上训练的小模型可以拼接,但VFM时代的异质模型能否拼接还不清楚。更重要的是,如果可以拼接,能否从分析工具升级为实用技术——解决多模态LLM中使用多个VFM带来的线性计算/内存开销?
核心问题¶
(1) 异质VFM是否可拼接? (2) 如何训练stitch层才能使拼接有效? (3) 拼接的增益来自额外容量还是真正的知识互补? (4) 能否利用可拼接性减少多VFM系统的计算开销?
方法详解¶
整体框架¶
冻结source VFM前n层和target VFM后(N-n)层,中间插入可训练stitch层。三种训练策略:Layer Feature Matching(LFM, 匹配stitch点特征)、Final Feature Matching(FFM, 匹配最终层特征)、Task Loss Training(TLT, 直接优化下游任务损失)。最优方案:两阶段——先FFM预训练再TLT微调。
关键设计¶
-
Final Feature Matching (FFM): 关键发现——LFM虽然在stitch点处距离极小(10^-3量级),但最终特征距离很大(误差累积放大)。FFM直接匹配倒数第二层特征,同时隐式保持了stitch点的局部对齐。这解决了shallow stitch的核心困境。
-
Self-Stitch基线: 在同一模型内插入相同stitch层(如DINOv2→DINOv2),严格控制额外容量的影响。跨VFM拼接一致超越self-stitch基线+2.3%~2.6%,证明增益来自真正的知识互补而非模块容量。
-
VFM Stitch Tree (VST): 多个VFM共享前层(如CLIP和DINOv2共享前14层),仅后层分叉保持各自特化。VST-22(共22层仅1层特化)用4.3%额外代价恢复45%增益;VST-14(14层共享9层特化)用39%代价恢复84%增益。
损失函数 / 训练策略¶
- FFM: 无标签,匹配\(\|T_\phi^N(S(R_\theta^n(x))) - T_\phi^N(R_\phi^n(x))\|_2^2\)
- TLT: 标准交叉熵损失
- 两阶段:先FFM预训练 → 再TLT微调
- AdamW, 100 epochs, early stopping patience 5
实验关键数据¶
DINOv2↔SigLIP2拼接 (fMoW分类, layer 22):
| 配置 | Accuracy |
|---|---|
| DINOv2 linear probe | 46.7% |
| SigLIP2 linear probe | 53.5% |
| DINOv2→DINOv2 self-stitch | 69.9% |
| SigLIP2→SigLIP2 self-stitch | 68.9% |
| DINOv2→SigLIP2 (FFM+TLT) | 71.8% |
| SigLIP2→DINOv2 (FFM+TLT) | 72.2% |
跨VFM拼接一致超越双方self-stitch基线。
VFM Stitch Tree (MoF-LLaVA):
| 配置 | 额外开销 | Normalized Gain |
|---|---|---|
| Full (双VFM) | 100% | 100% |
| VST-14 | 39% | 84.2% |
| VST-22 | 4.3% | 45.5% |
消融实验要点¶
- FFM初始化对shallow stitch至关重要:layer 2处TLT单独仅25.1%,加FFM预训练达51.7%
- MLP stitch层优于Linear和LoRA——LoRA表达力更强反而性能更低,可能因为"控制失match"减少了互补融合
- CLIP作为source时拼接效果差(太弱会丢失关键信息),但作为target时效果好
- 跨4种VFM(CLIP/DINOv2/SigLIP2/DINOv3)、4个数据集、分类+分割任务一致成立
亮点¶
- 将model stitching从分析工具升级为实用技术,VST的accuracy-efficiency knob设计极有实用价值
- Self-stitch基线设计严谨——直接回答"增益是否来自知识互补"这一关键问题
- FFM的insight简洁有力:stitch点的局部特征匹配不如最终特征匹配
- LoRA反而不如MLP的反直觉发现——"过于精确的匹配反而限制互补融合"
- 预测分析(Tab.10)展示拼接模型"rescue"(双方都错但拼接正确)远多于"interference"
局限性 / 可改进方向¶
- VST仅在MoF-LLaVA+VQAv2/MME上做了初步验证,需在更多MLLM任务上验证
- 当两个VFM能力差距过大时(如CLIP作source),拼接失效
- stitch层训练需要额外数据和计算,实际部署中的overhead需考虑
- 未探索动态stitch——根据输入自适应选择stitch点
与相关工作的对比¶
- 原始Model Stitching (Bansal et al.): 只在同数据集小模型上验证,本文扩展到异质VFM
- SN-Net (Pan et al.): 从训练阶段设计可拼接网络,本文是post-hoc拼接独立训练的VFM
- Model Soups/TIES-Merging: 在权重空间合并模型,本文在激活空间通过stitch层连接,保持各模型独立性
- Cambrian-1: 直接使用4个VFM(300%额外开销),VST可将其降至117%
启发与关联¶
- "异质VFM可拼接"意味着不同训练范式的表示在深层趋于兼容——这对理解表示学习有理论价值
- VST可直接应用于任何使用多VFM的系统(如自动驾驶感知),减少部署成本
- "FFM优于LFM"的insight可推广到任何需要特征蒸馏/对齐的场景——匹配最终表示比匹配中间表示更稳定
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将stitching从分析工具升级为实用系统的视角新颖,VST设计有创意
- 实验充分度: ⭐⭐⭐⭐⭐ 4种VFM、4个数据集、分类+分割、self-stitch控制实验、预测分析、stitch层类型对比,极其全面
- 写作质量: ⭐⭐⭐⭐⭐ 以问题为导向的叙事结构("Are VFMs stitchable?")清晰有力
- 价值: ⭐⭐⭐⭐⭐ 对多VFM系统的计算效率有直接实用价值,理论insight也有参考意义