MARCO: Navigating the Unseen Space of Semantic Correspondence¶
会议: CVPR 2026
arXiv: 2604.18267
代码: https://visinf.github.io/MARCO
领域: 3D视觉
关键词: 语义对应, DINOv2, 自蒸馏, 粗到细, 泛化性
一句话总结¶
提出 MARCO,基于单一 DINOv2 backbone 的语义对应模型,通过粗到细高斯 RBF 损失逐步提升空间精度,并用自蒸馏框架将稀疏关键点监督扩展为稠密伪对应标签,在标准基准和未见关键点/类别上均达到 SOTA,同时比双编码器方法小 3 倍、快 10 倍。
研究背景与动机¶
领域现状:语义对应旨在建立语义等价区域之间的像素级匹配。近期主流方法采用双编码器架构——结合 DINOv2(提供鲁棒语义对齐)和 Stable Diffusion(提供丰富空间细节),如 Geo-SC、SD+DINO 等。这些方法在基准测试上表现出色但参数量接近 10 亿。
现有痛点:(1) 双编码器方案计算量大,需要从两个编码器提取特征;(2) 更关键的是,用稀疏关键点训练的模型在测试时对未见关键点和未见类别泛化能力差,实际应用中查询点很少与训练时标注的点重合。这暴露了基准性能与实际可用性之间的鸿沟。
核心矛盾:稀疏关键点监督使模型过拟合到标注位置附近——微调后的 DINOv2 在标注关键点周围精度提高,但原本跨整个物体表面的部分一致性反而被破坏(表示坍缩到关键点附近)。
本文目标:(1) 在标准基准上提升精度,尤其是细粒度定位阈值;(2) 大幅增强对未见关键点和未见类别的泛化能力;(3) 保持单 backbone 的效率优势。
切入角度:冻结 DINOv2 编码器虽然空间一致性有限,但其特征空间中已包含稀疏但可靠的对应线索。可以利用这些线索在训练过程中自动发现和传播稠密对应关系,将监督从少量关键点扩展到整个物体表面。
核心 idea:用"由粗到细"的监督目标提升空间精度,同时用"自蒸馏+流锚定"将稀疏关键点扩展为覆盖物体表面的稠密伪标签,让特征在整个物体上保持平滑而非仅在关键点附近收缩。
方法详解¶
整体框架¶
基于 DINOv2 backbone,仅添加两个轻量组件:瓶颈适配器(AdaptFormer,参数开销 <5%)和紧凑的上采样头(转置卷积 + 深度卷积,将特征分辨率提高 4×)。训练使用两个互补目标:粗到细监督损失和自蒸馏稠密对应损失。
关键设计¶
-
粗到细高斯 RBF 损失:
- 功能:将对应匹配从粗粒度区域级逐步引导到亚 patch 级精确定位
- 核心思路:用交叉熵损失监督预测概率图与以 GT 关键点为中心的高斯 RBF 核的匹配。关键创新是带宽 \(\sigma\) 的余弦退火:\(\sigma(t) = \sigma_{min} + \frac{1}{2}(\sigma_{max} - \sigma_{min})(1 + \cos(\pi t/T))\)。训练初期 \(\sigma\) 大(宽核),鼓励区域级对齐;后期 \(\sigma\) 小(窄核),强制精确定位
- 设计动机:直接使用小 \(\sigma\) 训练会导致模型在少数高置信匹配上精确但整体准确率下降。大 \(\sigma\) 训练的模型匹配范围广但定位粗。退火策略先建立稳定的区域对齐再逐步收紧,兼得两者优势
-
流锚定自蒸馏 (Dense Self-Distillation via Flow Anchoring):
- 功能:将稀疏关键点监督扩展为覆盖物体表面的稠密伪对应标签
- 核心思路:(a) 从 EMA 教师网络的特征中找互最近邻匹配 \(\mathcal{P}_{MNN}\),与 GT 关键点合并为种子集;(b) 对种子集的源端点构建 Delaunay 三角剖分,在三角形对之间建立分段仿射变换,得到稠密光流场 \(\mathbf{D}(\mathbf{u})\);(c) 在位移空间中用 k-means 聚类找到一致运动区域,通过 BIC 自动选择 k;(d) 只保留包含 GT 关键点对的聚类作为可靠伪标签——即流方向与 GT 对应一致的区域
- 设计动机:直接用 DINOv2 特征做稠密匹配会引入大量错误(对称性、遮挡等)。流锚定策略巧妙地利用 GT 关键点作为"锚点"来验证发现的对应关系是否可靠
-
轻量架构增强:
- 功能:在不大幅增加参数的前提下提升特征质量和空间分辨率
- 核心思路:AdaptFormer 在高层 Transformer 块中插入瓶颈适配器(\(\mathbf{W}_{down} \in \mathbb{R}^{D \times d}\),\(d \ll D\)),以残差方式添加。上采样头用 2× 转置卷积 + GELU + 3×3 深度卷积实现 4× 上采样,将 14×14 patch 级特征提升到亚 patch 分辨率
- 设计动机:保持 backbone 冻结只训练适配器,充分利用 DINOv2 的预训练表示同时避免大规模微调的过拟合风险
损失函数 / 训练策略¶
总损失 \(\mathcal{L} = \mathcal{L}_{sup} + \mathcal{L}_{self}\)。监督损失用 CE + 高斯 RBF 退火;自蒸馏损失用 L2 回归(对噪声伪标签更鲁棒)。教师网络为学生的 EMA。
实验关键数据¶
主实验¶
| 数据集 | 阈值 | MARCO | Geo-SC(之前SOTA) | 提升 |
|---|---|---|---|---|
| SPair-71k | PCK@0.10 | 最优 | 次优 | +4.0 |
| SPair-71k | PCK@0.01 | 最优 | 次优 | +8.9 |
| AP-10K (Intra) | PCK@0.10 | 最优 | 次优 | +2.9 |
| PF-PASCAL | PCK@0.10 | 最优 | 次优 | 提升 |
泛化性实验¶
| 设定 | MARCO | Jamais Vu(之前最佳) | 提升 |
|---|---|---|---|
| SPair-U (未见关键点) | 最优 | 次优 | +5.1 |
| MP-100 (未见类别) | 最优 | 次优 | +5.6 |
消融实验¶
| 配置 | SPair PCK@0.10 | SPair-U | 说明 |
|---|---|---|---|
| Full MARCO | 最优 | 最优 | 完整方法 |
| w/o 粗到细退火 | 下降 | 下降 | 定位精度受损 |
| w/o 自蒸馏 | 下降 | 显著下降 | 泛化性急剧退化 |
| w/o 上采样头 | 下降 | - | 亚 patch 精度受限 |
关键发现¶
- MARCO 在细粒度阈值 PCK@0.01 上的优势(+8.9)远大于在 PCK@0.10 上的优势(+4.0),说明粗到细策略对精确定位效果显著
- 自蒸馏对泛化性的贡献是决定性的——没有它,微调后的 DINOv2 在未见关键点上甚至不如冻结模型
- 单 backbone 方案在保持 3× 更小、10× 更快的同时超越了双编码器方案,说明关键在于训练策略而非架构规模
亮点与洞察¶
- 流锚定自蒸馏的设计非常精巧:从冻结编码器中挖掘稀疏可靠匹配 → Delaunay 三角剖分稠密化 → 位移聚类 + GT 锚定过滤。每一步都有明确的目的且互相衔接
- "稀疏监督导致表示坍缩"的观察切中要害——微调让关键点附近变好但物体整体变差(图 2 的流可视化非常直观),自蒸馏正好治疗这个病症
- 提出新的泛化性 benchmark(基于 MP-100 的未见关键点/未见类别测试),为该领域提供了更严格的评估标准
局限与展望¶
- 自蒸馏依赖 DINOv2 特征空间中已有的稀疏可靠对应,如果预训练表示本身对某些物体类别缺乏这种结构,方法可能受限
- Delaunay 三角剖分在凸包之外的区域无法产生伪标签
- 不依赖 3D 先验虽然是优点但也限制了对严重形变物体的处理能力
- 改进方向:可结合视频时序一致性提供更多稠密对应信号
相关工作与启发¶
- vs Geo-SC/双编码器方法: MARCO 用单 backbone 超越它们,证明精巧的训练策略可以弥补架构简约的"劣势"
- vs Jamais Vu: 同样关注未见关键点泛化但依赖 3D 模板,受限于训练类别。MARCO 的自蒸馏不依赖任何类别先验或 3D 信息
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 流锚定自蒸馏是高度原创的训练范式
- 实验充分度: ⭐⭐⭐⭐⭐ 标准基准+泛化性基准,消融详尽
- 写作质量: ⭐⭐⭐⭐⭐ 问题分析深入,方法推导优雅
- 价值: ⭐⭐⭐⭐⭐ 在精度和泛化性上同时大幅提升,且高效,是对应估计领域的重要进展
相关论文¶
- [ICCV 2025] Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels
- [CVPR 2025] SemAlign3D: Semantic Correspondence Between RGB-Images Through Aligning 3D Object-Class Representations
- [CVPR 2026] MimiCAT: Mimic with Correspondence-Aware Cascade-Transformer for Category-Free 3D Pose Transfer
- [CVPR 2026] RayNova: Scale-Temporal Autoregressive World Modeling in Ray Space
- [CVPR 2026] DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction