跳转至

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

会议: CVPR 2026
arXiv: 2602.24181
代码: 待确认
领域: 自监督学习 / 表示学习 / 多模态
关键词: DINOv2, 多模态对齐, 视觉编码器, 跨模态, 特征对齐

一句话总结

发现DINOv2的特征在不同模态间几乎零对齐(同一场景RGB和深度图的特征相似度≈随机图像对),提出Omnivorous Vision Encoder通过跨模态对齐+冻结教师蒸馏的双目标训练,让单一编码器产出模态无关的统一特征空间。

背景与动机

DINOv2作为当前最强的通用视觉编码器,在单模态任务上表现卓越,是很多视觉系统的backbone首选。然而,现实中的视觉理解常需融合多种模态信息——RGB、深度图、法线图、分割图等——这就要求编码器的特征空间在不同模态间是对齐的。

核心问题

DINOv2的特征空间在不同模态间是完全不对齐的。具体来说:同一个场景的RGB图像和其对应的深度图,经DINOv2编码后的特征余弦相似度,与两张无关随机图像几乎一样!这意味着DINOv2虽然在每种模态上都能提取好特征,但它学到的是模态特异性的(modality-specific)表示,而非模态无关的(modality-agnostic)语义表示。这严重限制了跨模态检索、多模态融合等应用。

方法详解

整体框架

Omnivorous Vision Encoder是一个学生模型,通过双目标训练获得模态无关的特征空间:对齐目标保证不同模态映射到同一语义空间,蒸馏目标保留DINOv2的强判别特征。

关键设计

1. 跨模态特征对齐目标 - 对同一场景的不同模态输入(RGB、Depth、Segmentation等),最大化它们在编码器输出空间中的特征对齐 - 本质上是一个跨模态对比学习:同一场景不同模态为正样本对

2. 冻结教师蒸馏目标 - 用完全冻结的DINOv2作为教师模型 - 学生编码器的输出需要与DINOv2教师保持接近 - 这确保学到的新特征空间不会丢失DINOv2原有的强判别语义——不是从头学一个新特征空间,而是在DINOv2基础上"增强"

3. "杂食"训练策略 - 在训练数据中混入多种模态:同一场景的RGB、Depth、法线图、分割图等 - 编码器对所有模态使用相同的架构,不需要模态特异性的分支 - 训练后的编码器对任意输入模态都能产出一致的、强语义的特征嵌入

损失函数/训练策略

  • 双目标联合优化:跨模态对齐损失(对比/匹配损失)+ DINOv2蒸馏损失(特征回归/KL散度)
  • DINOv2教师完全冻结,只更新学生编码器

实验关键数据

评估维度 DINOv2 Omnivorous Encoder
RGB-Depth特征相似度(同一场景) ≈随机水平 高对齐
单模态任务性能 保持/略优
跨模态检索/融合 失败 有效

消融实验要点

  • 仅对齐无蒸馏:跨模态对齐好但单模态性能下降(丢失了DINOv2的判别特征)
  • 仅蒸馏无对齐:退化为DINOv2,跨模态仍不对齐
  • 双目标是必要的:对齐保跨模态,蒸馏保判别力

亮点 / 我学到了什么

  • DINOv2跨模态不对齐这个发现本身就很有价值——很多人默认foundation model的特征应该是模态通用的,但事实并非如此
  • "冻结教师蒸馏"策略很聪明:不是替代DINOv2,而是在其基础上做增强,避免丢失已有能力
  • "杂食"比喻精准:吃的种类越杂,消化能力越强。对foundation model的多模态扩展具有普适参考价值
  • 方法完全不改变编码器架构,只改训练策略,迁移成本极低

局限性 / 可改进方向

  • 需要同一场景多模态配对数据(RGB+Depth+法线+分割),这类数据可能不易大规模获取
  • 目前展示的模态种类有限,热成像/雷达/SAR等更异构的模态是否有效?
  • 蒸馏目标可能限制了特征空间的重组自由度——如果DINOv2的特征空间本身有缺陷,蒸馏会继承
  • 训练成本如何?需要多少跨模态配对数据才能达到良好对齐?

与相关工作的对比

  • vs ImageBind等多模态对齐工作:ImageBind用语言作为锚点间接对齐,本文直接做视觉模态间对齐+蒸馏保留判别力
  • vs 多模态foundation model(如4M):4M从头训练多模态编码器,本文从已有DINOv2增强
  • vs 领域适应/迁移:本文不是将一种模态适配到另一种,而是统一到同一空间

与我的研究方向的关联

  • 如果做多模态检测/分割,需要意识到encoder特征的跨模态不对齐问题
  • 蒸馏+对齐的双目标框架可用于其他场景:如将通用encoder适配到新模态
  • 对RGBD/多光谱等多模态密集预测任务有直接参考价值

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 发现DINOv2跨模态不对齐是一个重要事实
  • 实验充分度: ⭐⭐⭐⭐ — 验证充分但模态种类有限
  • 写作质量: ⭐⭐⭐⭐⭐ — "杂食"比喻出色,行文清晰
  • 对我的价值: ⭐⭐⭐⭐ — 对多模态表示学习方向有启发