DiveUp: Learning Feature Upsampling from Diverse Vision Foundation Models¶
日期: 2026-03-13
arXiv: 2603.13571
代码: DiveUp
领域: 自监督学习 / 密集预测
关键词: feature upsampling, vision foundation model, multi-VFM ensemble, center-of-mass field, dense prediction
一句话总结¶
提出 DiveUp,首次利用多种 VFM 的结构共识来指导特征上采样——通过通用的局部质心(COM)场表示消除不同 VFM 特征空间的不对齐,结合尖峰感知选择策略过滤高范数伪影,在语义分割和深度估计上达到 SOTA。
研究背景与动机¶
-
领域现状: VFM(SigLIP、DINOv2/v3、RADIO 等)由于 patch tokenization 导致特征图分辨率低(16× 下采样),需要上采样才能用于语义分割、深度估计等密集预测任务。
-
现有痛点: 现有上采样方法(FeatUp、LoftUp、NAF 等)依赖同一 VFM 的高分辨率特征做自重建——迫使上采样器过拟合到该模型固有的缺陷:
- 位置不对齐(如 CLIP/SigLIP 的文本-视觉对比训练导致空间定位差)
- 高范数伪影(register tokens 问题)
-
核心矛盾: 单一 VFM 的特征既是信号又是噪声源——上采样过程不可避免地传播源模型的缺陷。
-
切入角度: 不同 VFM 有不同的表示偏好(有的强语义,有的强几何),把多个 VFM 当"专家团",提取它们的结构共识来正则化上采样学习。
-
核心 idea: 用质心(COM)场作为跨模型通用的关系表示→尖峰感知选择策略过滤伪影→融合出共识 COM 场→指导上采样器学习正确的空间结构。
方法详解¶
整体框架¶
多个 VFM 提取特征 → 每个 VFM 计算局部自亲和力 → 计算 COM 场(表征语义边界方向)→ 尖峰感知选择 → 融合出共识 COM 场 → 与基础重建损失联合监督上采样器。推理时不需要多 VFM,只用单一上采样器。
关键设计¶
-
局部质心(COM)场——通用关系表示:
- 局部自亲和力:每个位置 \(p\) 的 \(w \times w\) 窗口内计算 softmax 相似度分布 \(S(p,q)\)
- COM 向量:\(\boldsymbol{\mu}(p) = \sum_{q} S(p,q) \boldsymbol{\Delta}(q)\)——平坦区域 \(\approx 0\),语义边界处偏向同类内部
- 关键优势:COM 场只编码几何结构关系,与原始通道维度无关→可跨 VFM 比较和融合
-
尖峰感知选择策略:
- 空间可靠性 = 低熵(自信的边界)+ 低尖峰度(无高范数伪影)
- 尖峰度:\(K(p) = \|z(p)\|_\infty / \|z(p)\|_2\)——高尖峰度 = 全局语义 token,非空间有用特征
- Winner-take-all 硬门控:每个像素位置只选最可靠的 VFM
-
双路损失解耦:
- 语义重建损失 \(\mathcal{L}_{rec}\):MSE 重建目标 VFM 的高分辨率特征
- 几何对齐损失 \(\mathcal{L}_{guide}\):L1 对齐预测 COM 场和共识 COM 场
- 训练时用多 VFM 指导,推理时零开销
训练策略¶
- 单阶段训练,单张 A6000,<2 小时
- 4 个 VFM 混合训练(SigLIP-B、DINOv2-S、RADIOv2.5、DINOv3-B)
- 2 个大模型提供指导(DINOv3-L、RADIOv3-L)
- ImageNet 上训练 25K iterations
实验关键数据¶
语义分割(Pascal VOC, mIoU)¶
| 方法 | SigLIP-B | DINOv2-S | RADIOv2.5 | DINOv3-B |
|---|---|---|---|---|
| Bilinear | 71.88 | 80.70 | 84.46 | 86.99 |
| NAF | 79.52 | 83.17 | 86.00 | 87.50 |
| DiveUp | 81.2+ | 84.5+ | 87.0+ | 88.5+ |
关键发现¶
- 对 SigLIP(位置不对齐严重)提升最大——多 VFM 指导有效修正了 CLIP 系模型的空间缺陷
- 编码器无关:一次训练后可直接应用于训练时未见过的 VFM
- 训练 <2 小时,推理零额外开销(多 VFM 仅用于训练)
亮点与洞察¶
- COM 场作为通用关系表示解决了多 VFM 特征空间不对齐问题——非常优雅,不需要显式对齐,只比较"结构关系"
- 尖峰感知选择精准识别和过滤高范数伪影——这个问题在 ViT 中非常普遍,大多数方法忽视了
- 训练和推理完全解耦——类似知识蒸馏,多 VFM 是"教师",上采样器是"学生"
局限性 / 可改进方向¶
- 依赖预训练 VFM 的质量——如果所有 VFM 在某类场景都差,共识 COM 场也会差
- 硬门控(winner-take-all)可能丢失次优 VFM 的有用信息
- 只在分类 backbone(SigLIP/DINOv2/RADIO)上评估,未在 SAM 等分割特化模型上测试
- COM 场窗口大小 \(w=7\) 是固定的,多尺度的 COM 可能更好
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次多 VFM 协同指导上采样,COM 场表示精巧
- 实验充分度: ⭐⭐⭐⭐ 多 VFM 多任务覆盖,有消融
- 写作质量: ⭐⭐⭐⭐ 技术细节清晰,图解直观
- 价值: ⭐⭐⭐⭐ 对 VFM 特征上采样领域有实质推进,即插即用且高效