跳转至

Alligat0R: Pre-Training through Covisibility Segmentation for Relative Camera Pose Regression

会议: NeurIPS 2025
arXiv: 2503.07561
代码: https://github.com/thibautloiseau/alligat0r
领域: 3D视觉 / 相机位姿估计 / 预训练
关键词: 共视性分割, 预训练, 相对位姿回归, CroCo, ViT

一句话总结

用共视性分割(covisibility segmentation)替代 CroCo 的跨视图补全作为双目视觉预训练任务,对每个像素预测"共视/遮挡/视野外"三类标签,在低重叠场景下显著超越 CroCo,RUBIK 基准总体成功率 60.3% 排第一。

研究背景与动机

  1. 领域现状:CroCo 开创了跨视图补全作为 3D 视觉预训练任务,被 DUSt3R、MASt3R 等基础模型采用
  2. 现有痛点
  3. CroCo 的跨视图补全在非共视区域是 ill-posed 的——被遮挡或不在视野中的像素无法从另一视图重建
  4. CroCo 要求图像对至少 50% 重叠,限制了训练数据多样性
  5. 非共视区域学到的是模糊重建,浪费模型容量
  6. 核心矛盾:跨视图补全在非共视区域无意义,但真实场景大量存在低重叠图像对
  7. 本文要解决什么? 设计一个在共视和非共视区域都有效的预训练任务
  8. 切入角度:从"重建"转为"分类"——不重建像素值,而是预测每个像素的共视状态
  9. 核心idea一句话:用三类共视性分割替代跨视图补全,在所有区域都有明确训练信号

方法详解

整体框架

输入:两张不同视角的场景图像。预训练:ViT 编码器独立处理两张图,Transformer 解码器通过交叉注意力融合信息,对每个像素预测 3 类共视性标签。微调:加位姿回归头,预测相对平移向量和四元数旋转。

关键设计

  1. 共视性分割预训练目标:
  2. 做什么:对每个像素预测其在另一视图中的状态——共视、遮挡、视野外
  3. 核心思路:ViT 编码器对称处理两张图(无 masking),解码器用交叉注意力做跨视图推理,FC 层输出 3 类 softmax。交叉熵损失训练
  4. 设计动机:模型必须理解 3D 结构、遮挡关系和视野范围才能正确预测,且非共视区域也有清晰训练信号

  5. 对称前向传播:

  6. 做什么:两张图用同一编码器处理,不做 masking(CroCo 用非对称 masking)
  7. 设计动机:与下游任务更一致,更高效

  8. 两阶段微调策略:

  9. Phase 1:冻结骨干只训练位姿回归头,homoscedastic loss 平衡平移和旋转
  10. Phase 2:解冻全网络,联合优化位姿损失+共视性分割损失(保留分割头)
  11. 设计动机:保留分割能力提供正则化

损失函数 / 训练策略

  • 预训练:交叉熵 L_ce = L_ce1 + L_ce2
  • 微调:homoscedastic loss 自动平衡平移、旋转和分割三项损失

实验关键数据

主实验

Map-free Relocalization benchmark

预训练方法 ε_t < 0.25m (%) ε_t < 0.5m (%) ε_t < 5m (%)
CroCo v2 (官方) 75.7 87.4 91.5
Alligat0R 87.7 94.9 95.9

RUBIK benchmark:总体成功率 60.3% 排第一,超越 DUSt3R (54.8%)、MASt3R (53.6%)

消融实验

配置 说明
w/o 共视性头(微调时移除) 性能下降,保留分割头提供正则化
仅 nuScenes 数据 ScanNet 室内数据带来互补提升
Phase 1 only 不解冻骨干性能明显更低

关键发现

  • 低重叠场景优势巨大:20-40% 重叠区间 Alligat0R 成功率 61.5%
  • 速度优势:直接回归位姿仅需 57ms(DUSt3R 需 257ms)
  • 零样本泛化:ETH3D 上零样本 correspondence 估计超越 CroCo v2

亮点与洞察

  • 预训练范式转换:从"重建"到"分类",简洁有力地解决 CroCo 非共视区域 ill-posed 问题
  • 可解释性:分割输出直观显示模型的几何理解
  • 保留分割头的正则化效果:微调时不丢弃预训练头,值得推广的微调策略
  • 大规模数据集 Cub3:5M 图像对+密集共视性标注

局限性 / 可改进方向

  • 仅在位姿回归验证,未测试 3D 重建、高斯溅射等下游
  • 三类分类可能过于粗糙,缺少"部分遮挡"等细粒度状态
  • 可以与 DUSt3R/MASt3R 结合,验证 3D 重建效果

相关工作与启发

  • vs CroCo/CroCo v2: CroCo 在非共视区域 ill-posed,本文用分割替代,全局有效
  • vs DUSt3R/MASt3R: 基于 CroCo 的基础模型,换用 Alligat0R 预训练可能进一步提升
  • vs Reloc3R: 同为位姿回归但 Reloc3R 只预测平移方向,本文预测度量平移

评分

  • 新颖性: ⭐⭐⭐⭐ 简洁的预训练任务设计直击 CroCo 的核心局限
  • 实验充分度: ⭐⭐⭐⭐ 多 benchmark 验证+消融+可视化+泛化测试
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,对比公平
  • 价值: ⭐⭐⭐⭐ 可能影响整个 CroCo 生态的预训练范式