DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers¶

会议: CVPR 2025
arXiv: 2503.14405
代码: https://europe.naverlabs.com/dune
领域: 自监督学习 / 知识蒸馏
关键词: 多教师蒸馏, 异构教师, 通用编码器, 2D-3D统一, DINOv2

一句话总结¶

提出 DUNE，首次研究异构教师蒸馏（co-distillation）问题——从任务目标和训练数据都显著不同的教师模型（DINOv2 + MASt3R + Multi-HMR）中蒸馏出一个 ViT-Base 通用编码器，在 2D 视觉、3D 场景理解和 3D 人体感知任务上均达到教师级性能。

领域现状：AM-RADIO、UNIC 等方法已成功将多个基础模型蒸馏为单一编码器，但这些教师都是在类似的通用网络爬取数据上训练的同质教师。

现有痛点：未有工作研究从任务和数据都高度异构的教师（如 3D 重建专用模型 + 人体感知模型 + 通用视觉基础模型）中进行蒸馏。

核心矛盾：异构教师的训练数据差异极大（通用网络图像 vs 合成 3D 数据 vs 人体图像），且特征空间表达的信息完全不同。

核心 idea：研究数据共享策略和教师特异性投影器设计，实现异构教师的有效蒸馏。

一个 ViT-Base 学生编码器，通过教师特异性投影器分别与 DINOv2（2D 通用）、MASt3R（3D 场景重建）和 Multi-HMR（3D 人体感知）对齐。关键问题：用什么数据蒸馏？投影器如何设计？

数据共享策略:
- 功能：为异构教师选择合适的蒸馏数据
- 核心思路：不能仅用通用数据（ImageNet），需要包含各教师训练域的数据。将不同教师的训练数据混合使用，每种教师仅在其相关数据上计算蒸馏损失
- 设计动机：专门化教师（如 MASt3R）的知识只能在其训练域类似数据上有效传递
教师特异性投影器:
- 功能：捕捉教师间的特有信息
- 核心思路：为每个教师分配独立的投影器（Transformer 层），将共享编码器的输出投影到各教师的特征空间。探索了不同投影器深度对性能的影响
- 设计动机：异构教师的特征空间差异极大，需要足够容量的投影器来桥接
任务无关 vs 任务特定教师的平衡:
- 功能：保持通用性的同时掌握专门技能
- 核心思路：DINOv2 作为任务无关教师提供泛化能力，MASt3R 和 Multi-HMR 作为任务特定教师提供专门能力。蒸馏损失按教师类型加权
- 设计动机：避免专门化教师的蒸馏损害通用表示质量

标准多教师蒸馏损失：学生特征经投影器后与教师特征计算 L2 距离。每个教师仅在其相关数据上激活。

DUNE（ViT-Base）性能： - 2D 任务（分类/分割/深度）：接近 DINOv2 ViT-Large 教师 - 3D 重建：在 Map-free Visual Relocalization 挑战中超越 MASt3R（更大的编码器） - 3D 人体感知：接近 Multi-HMR 教师