跳转至

DiveUp: Learning Feature Upsampling from Diverse Vision Foundation Models

日期: 2026-03-13
arXiv: 2603.13571
代码: DiveUp
领域: 自监督学习 / 密集预测
关键词: feature upsampling, vision foundation model, multi-VFM ensemble, center-of-mass field, dense prediction

一句话总结

提出 DiveUp,首次利用多种 VFM 的结构共识来指导特征上采样——通过通用的局部质心(COM)场表示消除不同 VFM 特征空间的不对齐,结合尖峰感知选择策略过滤高范数伪影,在语义分割和深度估计上达到 SOTA。

研究背景与动机

  1. 领域现状: VFM(SigLIP、DINOv2/v3、RADIO 等)由于 patch tokenization 导致特征图分辨率低(16× 下采样),需要上采样才能用于语义分割、深度估计等密集预测任务。

  2. 现有痛点: 现有上采样方法(FeatUp、LoftUp、NAF 等)依赖同一 VFM 的高分辨率特征做自重建——迫使上采样器过拟合到该模型固有的缺陷:

    • 位置不对齐(如 CLIP/SigLIP 的文本-视觉对比训练导致空间定位差)
    • 高范数伪影(register tokens 问题)
  3. 核心矛盾: 单一 VFM 的特征既是信号又是噪声源——上采样过程不可避免地传播源模型的缺陷。

  4. 切入角度: 不同 VFM 有不同的表示偏好(有的强语义,有的强几何),把多个 VFM 当"专家团",提取它们的结构共识来正则化上采样学习。

  5. 核心 idea: 用质心(COM)场作为跨模型通用的关系表示→尖峰感知选择策略过滤伪影→融合出共识 COM 场→指导上采样器学习正确的空间结构。

方法详解

整体框架

多个 VFM 提取特征 → 每个 VFM 计算局部自亲和力 → 计算 COM 场(表征语义边界方向)→ 尖峰感知选择 → 融合出共识 COM 场 → 与基础重建损失联合监督上采样器。推理时不需要多 VFM,只用单一上采样器。

关键设计

  1. 局部质心(COM)场——通用关系表示:

    • 局部自亲和力:每个位置 \(p\)\(w \times w\) 窗口内计算 softmax 相似度分布 \(S(p,q)\)
    • COM 向量:\(\boldsymbol{\mu}(p) = \sum_{q} S(p,q) \boldsymbol{\Delta}(q)\)——平坦区域 \(\approx 0\),语义边界处偏向同类内部
    • 关键优势:COM 场只编码几何结构关系,与原始通道维度无关→可跨 VFM 比较和融合
  2. 尖峰感知选择策略:

    • 空间可靠性 = 低熵(自信的边界)+ 低尖峰度(无高范数伪影)
    • 尖峰度:\(K(p) = \|z(p)\|_\infty / \|z(p)\|_2\)——高尖峰度 = 全局语义 token,非空间有用特征
    • Winner-take-all 硬门控:每个像素位置只选最可靠的 VFM
  3. 双路损失解耦:

    • 语义重建损失 \(\mathcal{L}_{rec}\):MSE 重建目标 VFM 的高分辨率特征
    • 几何对齐损失 \(\mathcal{L}_{guide}\):L1 对齐预测 COM 场和共识 COM 场
    • 训练时用多 VFM 指导,推理时零开销

训练策略

  • 单阶段训练,单张 A6000,<2 小时
  • 4 个 VFM 混合训练(SigLIP-B、DINOv2-S、RADIOv2.5、DINOv3-B)
  • 2 个大模型提供指导(DINOv3-L、RADIOv3-L)
  • ImageNet 上训练 25K iterations

实验关键数据

语义分割(Pascal VOC, mIoU)

方法 SigLIP-B DINOv2-S RADIOv2.5 DINOv3-B
Bilinear 71.88 80.70 84.46 86.99
NAF 79.52 83.17 86.00 87.50
DiveUp 81.2+ 84.5+ 87.0+ 88.5+

关键发现

  • 对 SigLIP(位置不对齐严重)提升最大——多 VFM 指导有效修正了 CLIP 系模型的空间缺陷
  • 编码器无关:一次训练后可直接应用于训练时未见过的 VFM
  • 训练 <2 小时,推理零额外开销(多 VFM 仅用于训练)

亮点与洞察

  • COM 场作为通用关系表示解决了多 VFM 特征空间不对齐问题——非常优雅,不需要显式对齐,只比较"结构关系"
  • 尖峰感知选择精准识别和过滤高范数伪影——这个问题在 ViT 中非常普遍,大多数方法忽视了
  • 训练和推理完全解耦——类似知识蒸馏,多 VFM 是"教师",上采样器是"学生"

局限性 / 可改进方向

  • 依赖预训练 VFM 的质量——如果所有 VFM 在某类场景都差,共识 COM 场也会差
  • 硬门控(winner-take-all)可能丢失次优 VFM 的有用信息
  • 只在分类 backbone(SigLIP/DINOv2/RADIO)上评估,未在 SAM 等分割特化模型上测试
  • COM 场窗口大小 \(w=7\) 是固定的,多尺度的 COM 可能更好

评分

  • 新颖性: ⭐⭐⭐⭐ 首次多 VFM 协同指导上采样,COM 场表示精巧
  • 实验充分度: ⭐⭐⭐⭐ 多 VFM 多任务覆盖,有消融
  • 写作质量: ⭐⭐⭐⭐ 技术细节清晰,图解直观
  • 价值: ⭐⭐⭐⭐ 对 VFM 特征上采样领域有实质推进,即插即用且高效