A Mixed Diet Makes DINO An Omnivorous Vision Encoder¶

会议: CVPR 2026
arXiv: 2602.24181
代码: 待确认
领域: 自监督学习 / 表示学习 / 多模态
关键词: DINOv2, 多模态对齐, 视觉编码器, 跨模态, 特征对齐

一句话总结¶

发现DINOv2的特征在不同模态间几乎零对齐（同一场景RGB和深度图的特征相似度≈随机图像对），提出Omnivorous Vision Encoder通过跨模态对齐+冻结教师蒸馏的双目标训练，让单一编码器产出模态无关的统一特征空间。

背景与动机¶

DINOv2作为当前最强的通用视觉编码器，在单模态任务上表现卓越，是很多视觉系统的backbone首选。然而，现实中的视觉理解常需融合多种模态信息——RGB、深度图、法线图、分割图等——这就要求编码器的特征空间在不同模态间是对齐的。

核心问题¶

DINOv2的特征空间在不同模态间是完全不对齐的。具体来说：同一个场景的RGB图像和其对应的深度图，经DINOv2编码后的特征余弦相似度，与两张无关随机图像几乎一样！这意味着DINOv2虽然在每种模态上都能提取好特征，但它学到的是模态特异性的（modality-specific）表示，而非模态无关的（modality-agnostic）语义表示。这严重限制了跨模态检索、多模态融合等应用。

方法详解¶

整体框架¶

Omnivorous Vision Encoder是一个学生模型，通过双目标训练获得模态无关的特征空间：对齐目标保证不同模态映射到同一语义空间，蒸馏目标保留DINOv2的强判别特征。

关键设计¶

1. 跨模态特征对齐目标 - 对同一场景的不同模态输入（RGB、Depth、Segmentation等），最大化它们在编码器输出空间中的特征对齐 - 本质上是一个跨模态对比学习：同一场景不同模态为正样本对

2. 冻结教师蒸馏目标 - 用完全冻结的DINOv2作为教师模型 - 学生编码器的输出需要与DINOv2教师保持接近 - 这确保学到的新特征空间不会丢失DINOv2原有的强判别语义——不是从头学一个新特征空间，而是在DINOv2基础上"增强"

3. "杂食"训练策略 - 在训练数据中混入多种模态：同一场景的RGB、Depth、法线图、分割图等 - 编码器对所有模态使用相同的架构，不需要模态特异性的分支 - 训练后的编码器对任意输入模态都能产出一致的、强语义的特征嵌入

损失函数/训练策略¶

双目标联合优化：跨模态对齐损失（对比/匹配损失）+ DINOv2蒸馏损失（特征回归/KL散度）
DINOv2教师完全冻结，只更新学生编码器

实验关键数据¶

评估维度	DINOv2	Omnivorous Encoder
RGB-Depth特征相似度（同一场景）	≈随机水平	高对齐
单模态任务性能	强	保持/略优
跨模态检索/融合	失败	有效

消融实验要点¶

仅对齐无蒸馏：跨模态对齐好但单模态性能下降（丢失了DINOv2的判别特征）
仅蒸馏无对齐：退化为DINOv2，跨模态仍不对齐
双目标是必要的：对齐保跨模态，蒸馏保判别力

亮点 / 我学到了什么¶

DINOv2跨模态不对齐这个发现本身就很有价值——很多人默认foundation model的特征应该是模态通用的，但事实并非如此
"冻结教师蒸馏"策略很聪明：不是替代DINOv2，而是在其基础上做增强，避免丢失已有能力
"杂食"比喻精准：吃的种类越杂，消化能力越强。对foundation model的多模态扩展具有普适参考价值
方法完全不改变编码器架构，只改训练策略，迁移成本极低

局限性 / 可改进方向¶

需要同一场景多模态配对数据（RGB+Depth+法线+分割），这类数据可能不易大规模获取
目前展示的模态种类有限，热成像/雷达/SAR等更异构的模态是否有效？
蒸馏目标可能限制了特征空间的重组自由度——如果DINOv2的特征空间本身有缺陷，蒸馏会继承
训练成本如何？需要多少跨模态配对数据才能达到良好对齐？

与相关工作的对比¶

vs ImageBind等多模态对齐工作：ImageBind用语言作为锚点间接对齐，本文直接做视觉模态间对齐+蒸馏保留判别力
vs 多模态foundation model（如4M）：4M从头训练多模态编码器，本文从已有DINOv2增强
vs 领域适应/迁移：本文不是将一种模态适配到另一种，而是统一到同一空间

与我的研究方向的关联¶

如果做多模态检测/分割，需要意识到encoder特征的跨模态不对齐问题
蒸馏+对齐的双目标框架可用于其他场景：如将通用encoder适配到新模态
对RGBD/多光谱等多模态密集预测任务有直接参考价值

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 发现DINOv2跨模态不对齐是一个重要事实
实验充分度: ⭐⭐⭐⭐ — 验证充分但模态种类有限
写作质量: ⭐⭐⭐⭐⭐ — "杂食"比喻出色，行文清晰
对我的价值: ⭐⭐⭐⭐ — 对多模态表示学习方向有启发