Revisiting Model Stitching In the Foundation Model Era¶

会议: CVPR2026 arXiv: 2603.12433 代码: 待确认领域: 多模态VLM 关键词: 模型拼接, 视觉基础模型, 表征兼容性, 特征匹配, 多VFM融合, 效率优化

一句话总结¶

提出针对异构视觉基础模型(VFM)的两阶段拼接训练方法(Final Feature Matching + Task Loss Training)，证明异构VFM可以可靠拼接且融合互补知识，并设计VFM Stitch Tree (VST)架构实现多VFM系统的可控精度-效率权衡。

背景与动机¶

VFM百花齐放但表征兼容性未知：当前CLIP、DINOv2、SigLIP 2等VFM在训练目标（对比学习 vs 自监督重建）、数据（LAION vs WebLI vs LVD-142M）和模态组合（视觉-语言 vs 纯视觉）上差异巨大，但它们的内部表征是否兼容尚不清楚。
模型拼接作为表征兼容性探针：先前工作表明同数据集训练的小模型（如ResNet-18在CIFAR-10上）即使初始化/目标不同仍可拼接（精度几乎无损），但这一结论能否推广到异构VFM尚未验证。
现有拼接策略在VFM上失效：传统的Layer Feature Matching（在拼接点匹配特征）和Task Loss Training（直接优化下游损失）在VFM场景下表现糟糕，尤其在浅层拼接点。
浅层拼接的梯度传播困境：当拼接点较浅时，目标模型后续所有层被冻结，梯度需穿过长链冻结层才能更新拼接层，导致优化困难。
多VFM系统的效率瓶颈：现代多模态LLM（如MoF-LLaVA、Cambrian-1）部署多个VFM以捕获互补视觉信息，但带来线性增长的计算和显存开销（k个VFM = k倍成本）。
从诊断工具到实用方案的需求：需要将模型拼接从纯粹的表征分析工具提升为融合互补VFM优势的实用方案。

方法详解¶

整体框架¶

给定源模型 \(f_\theta\) 和目标模型 \(f_\phi\)，在第 \(n\) 层拼接：冻结源模型前 \(n\) 层和目标模型后 \(N-n\) 层，仅训练一个轻量拼接层 \(S\)。拼接模型表示为 \(F(x) = T_\phi^N \circ S \circ R_\theta^n(x)\)。

核心设计：两阶段训练¶

阶段一：Final Feature Matching (FFM)

不在拼接点匹配中间特征，而是匹配目标模型最终层输出特征
损失函数：\(\mathcal{L}_{FFM} = \frac{1}{M}\sum_{i=1}^{M}\|T_\phi^N(S(R_\theta^n(x_i))) - T_\phi^N(R_\phi^n(x_i))\|_2^2\)
关键发现：FFM虽然直接匹配最终特征，但同时也隐式保持了拼接点的局部对齐（层特征距离与LFM相当）
此阶段无需标签，仅需无标注图像

阶段二：Task Loss Training (TLT)

用阶段一的FFM初始化拼接层参数，避免随机初始化导致的优化困难
在下游任务上微调：\(\mathcal{L}_{task} = \frac{1}{M}\sum_{i=1}^{M}\ell(F(x_i), y_i)\)
FFM初始化将拼接层放置在更好的损失景观中，后续微调将良好初始化转化为强拼接精度

拼接层设计¶

Linear：按token独立处理，表达能力最弱
MLP（默认）：两层感知机+ReLU，表现最佳
LoRA：在源模型第 \(n\) 层加LoRA，允许token间交互，表达能力最强但反而不如MLP——适度的不匹配有助于互补信息融合

VFM Stitch Tree (VST)¶

核心思想：多个VFM共享浅层计算，仅在深层保留各自特化层，通过拼接层连接
架构：树形结构——主干为一个VFM的浅层，分支为各VFM的深层
以Cambrian-1（4个VFM）为例，在第14层拼接可减少 54% GPU显存和计算量

实验关键数据¶

两阶段训练 vs 朴素TLT（fMoW分类，准确率%）¶

方向	预训练	L2	L6	L10	L14	L18	L22
DINOv2→SigLIP2	无	25.1	39.4	52.6	62.3	68.6	68.6
DINOv2→SigLIP2	FFM	51.7	55.8	59.3	68.0	72.0	71.8
SigLIP2→DINOv2	无	38.7	56.7	58.3	64.4	70.4	70.1
SigLIP2→DINOv2	FFM	53.8	53.8	61.9	69.6	70.4	72.2

FFM初始化在浅层拼接点（L2）带来高达 +26.6% 的提升，深层也有稳定增益。

跨数据集/任务一致性（分类准确率%/分割mIoU%）¶

方向	fMoW (L6/14/22)	iNaturalist (L6/14/22)	Aircraft (L6/14/22)	ADE20K (L14/22)
Self-Stitch DINOv2	41.5/59.7/69.9	56.9/81.5/91.2	37.8/79.3/91.2	35.4/50.9
Self-Stitch SigLIP2	50.5/62.0/68.9	71.2/88.5/87.3	67.9/88.1/89.3	44.5/50.5
DINOv2→SigLIP2	55.8/68.0/71.8	75.9/89.1/92.8	77.8/87.6/92.4	44.9/51.2
SigLIP2→DINOv2	53.8/69.6/72.2	86.3/88.9/91.9	80.7/89.0/91.0	49.0/51.4

跨模型拼接一致性地超越自拼接基线，分类提升 +0.7%~+5.5%，分割提升 +0.5~+0.7 mIoU。

VST性能-效率权衡（MoF-LLaVA）¶

配置	额外资源	增益恢复比
单VFM baseline	0%	0%
VST-22（1层特化）	4.3%	45%
VST-14（9层特化）	39%	84%
完整双VFM	100%	100%

消融：拼接层类型对比（fMoW准确率%）¶

方法	L2	L6	L10	L14	L18	L22
D→S Linear	26.1	54.3	59.5	66.5	69.1	69.6
D→S MLP	51.7	55.8	59.3	68.0	72.0	71.8
D→S LoRA	49.1	49.4	57.4	61.7	67.7	67.3

MLP在所有拼接点上一致优于Linear和LoRA，LoRA尽管表达能力更强反而次于MLP。

亮点¶

问题洞察深刻：精准分析了LFM在浅层失效的原因（小误差经冻结层累积放大）和TLT在浅层的梯度传播困难，FFM方案简洁有效
自拼接基线设计巧妙：通过Self-Stitch控制实验排除了"拼接层容量带来的增益"这一混淆因素，证明互补知识融合是真实存在的
从理论到应用的完整闭环：从表征分析出发，发现VFM可拼接性，进而设计VST架构解决实际多VFM系统的效率问题
实验全面系统：覆盖4种VFM、4个数据集、2类任务（分类+分割）、3种拼接层、6个拼接深度

局限性 / 可改进方向¶

弱源模型限制：当CLIP作为源模型时拼接效果不佳，说明弱编码器可能丢失关键信息导致目标模型无法恢复
VST评估有限：仅在LLaVA框架和少量VQA基准上验证，未覆盖更多MLLM架构和更广泛的基准测试
拼接层设计空间未充分探索：仅尝试Linear/MLP/LoRA三种，更复杂的跨注意力等机制未探索
仅限ViT架构：所有VFM均为Transformer架构，CNN或混合架构的可拼接性未验证
静态拼接点：拼接点固定，未探索输入自适应的动态拼接策略

与相关工作的对比¶

vs Bansal et al. (2021)：先前仅在同数据集小模型上验证拼接性，本文首次系统扩展到异构VFM并发现朴素方法失效
vs Collins et al. (2025)：该工作指出TLT可能创建分布外表征，本文FFM初始化正好缓解此问题——先保持表征保真度再做任务适配
vs Smith et al. (2025)：该工作质疑拼接成功仅反映表征聚类而非语义相似性，本文自拼接控制实验直接回应了这一质疑
vs SN-Net (Pan et al.)：SN-Net关注同家族模型跨尺度的可拼接性训练，本文关注独立训练的异构VFM的事后拼接

评分¶

新颖性: ⭐⭐⭐⭐ — FFM训练策略和VST架构有新意，但核心思想基于已有模型拼接框架的改进
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖多VFM、多数据集、多任务、多拼接层、多拼接深度，控制实验设计优秀
写作质量: ⭐⭐⭐⭐⭐ — 逻辑清晰，问题-分析-方案-验证的叙事流畅，自拼接基线的引入令人信服
价值: ⭐⭐⭐⭐ — VST为多VFM系统效率优化提供了实用方案，但弱源模型的限制和有限的MLLM评估稍减实际影响力