DiveUp: Learning Feature Upsampling from Diverse Vision Foundation Models¶

日期: 2026-03-13
arXiv: 2603.13571
代码: DiveUp
领域: 自监督学习 / 密集预测
关键词: feature upsampling, vision foundation model, multi-VFM ensemble, center-of-mass field, dense prediction

一句话总结¶

提出 DiveUp，首次利用多种 VFM 的结构共识来指导特征上采样——通过通用的局部质心（COM）场表示消除不同 VFM 特征空间的不对齐，结合尖峰感知选择策略过滤高范数伪影，在语义分割和深度估计上达到 SOTA。

研究背景与动机¶

领域现状: VFM（SigLIP、DINOv2/v3、RADIO 等）由于 patch tokenization 导致特征图分辨率低（16× 下采样），需要上采样才能用于语义分割、深度估计等密集预测任务。
现有痛点: 现有上采样方法（FeatUp、LoftUp、NAF 等）依赖同一 VFM 的高分辨率特征做自重建——迫使上采样器过拟合到该模型固有的缺陷：
- 位置不对齐（如 CLIP/SigLIP 的文本-视觉对比训练导致空间定位差）
- 高范数伪影（register tokens 问题）
核心矛盾: 单一 VFM 的特征既是信号又是噪声源——上采样过程不可避免地传播源模型的缺陷。
切入角度: 不同 VFM 有不同的表示偏好（有的强语义，有的强几何），把多个 VFM 当"专家团"，提取它们的结构共识来正则化上采样学习。
核心 idea: 用质心（COM）场作为跨模型通用的关系表示→尖峰感知选择策略过滤伪影→融合出共识 COM 场→指导上采样器学习正确的空间结构。

方法详解¶

整体框架¶

多个 VFM 提取特征 → 每个 VFM 计算局部自亲和力 → 计算 COM 场（表征语义边界方向）→ 尖峰感知选择 → 融合出共识 COM 场 → 与基础重建损失联合监督上采样器。推理时不需要多 VFM，只用单一上采样器。

关键设计¶

局部质心（COM）场——通用关系表示:
- 局部自亲和力：每个位置 \(p\) 的 \(w \times w\) 窗口内计算 softmax 相似度分布 \(S(p,q)\)
- COM 向量：\(\boldsymbol{\mu}(p) = \sum_{q} S(p,q) \boldsymbol{\Delta}(q)\)——平坦区域 \(\approx 0\)，语义边界处偏向同类内部
- 关键优势：COM 场只编码几何结构关系，与原始通道维度无关→可跨 VFM 比较和融合
尖峰感知选择策略:
- 空间可靠性 = 低熵（自信的边界）+ 低尖峰度（无高范数伪影）
- 尖峰度：\(K(p) = \|z(p)\|_\infty / \|z(p)\|_2\)——高尖峰度 = 全局语义 token，非空间有用特征
- Winner-take-all 硬门控：每个像素位置只选最可靠的 VFM
双路损失解耦:
- 语义重建损失 \(\mathcal{L}_{rec}\)：MSE 重建目标 VFM 的高分辨率特征
- 几何对齐损失 \(\mathcal{L}_{guide}\)：L1 对齐预测 COM 场和共识 COM 场
- 训练时用多 VFM 指导，推理时零开销

训练策略¶

单阶段训练，单张 A6000，<2 小时
4 个 VFM 混合训练（SigLIP-B、DINOv2-S、RADIOv2.5、DINOv3-B）
2 个大模型提供指导（DINOv3-L、RADIOv3-L）
ImageNet 上训练 25K iterations

实验关键数据¶

语义分割（Pascal VOC, mIoU）¶

方法	SigLIP-B	DINOv2-S	RADIOv2.5	DINOv3-B
Bilinear	71.88	80.70	84.46	86.99
NAF	79.52	83.17	86.00	87.50
DiveUp	81.2+	84.5+	87.0+	88.5+

关键发现¶

对 SigLIP（位置不对齐严重）提升最大——多 VFM 指导有效修正了 CLIP 系模型的空间缺陷
编码器无关：一次训练后可直接应用于训练时未见过的 VFM
训练 <2 小时，推理零额外开销（多 VFM 仅用于训练）

亮点与洞察¶

COM 场作为通用关系表示解决了多 VFM 特征空间不对齐问题——非常优雅，不需要显式对齐，只比较"结构关系"
尖峰感知选择精准识别和过滤高范数伪影——这个问题在 ViT 中非常普遍，大多数方法忽视了
训练和推理完全解耦——类似知识蒸馏，多 VFM 是"教师"，上采样器是"学生"

局限性 / 可改进方向¶

依赖预训练 VFM 的质量——如果所有 VFM 在某类场景都差，共识 COM 场也会差
硬门控（winner-take-all）可能丢失次优 VFM 的有用信息
只在分类 backbone（SigLIP/DINOv2/RADIO）上评估，未在 SAM 等分割特化模型上测试
COM 场窗口大小 \(w=7\) 是固定的，多尺度的 COM 可能更好

评分¶

新颖性: ⭐⭐⭐⭐ 首次多 VFM 协同指导上采样，COM 场表示精巧
实验充分度: ⭐⭐⭐⭐ 多 VFM 多任务覆盖，有消融
写作质量: ⭐⭐⭐⭐ 技术细节清晰，图解直观
价值: ⭐⭐⭐⭐ 对 VFM 特征上采样领域有实质推进，即插即用且高效