Alligat0R: Pre-Training through Covisibility Segmentation for Relative Camera Pose Regression¶
会议: NeurIPS 2025
arXiv: 2503.07561
代码: https://github.com/thibautloiseau/alligat0r
领域: 3D视觉 / 相机位姿估计 / 预训练
关键词: 共视性分割, 预训练, 相对位姿回归, CroCo, ViT
一句话总结¶
用共视性分割(covisibility segmentation)替代 CroCo 的跨视图补全作为双目视觉预训练任务,对每个像素预测"共视/遮挡/视野外"三类标签,在低重叠场景下显著超越 CroCo,RUBIK 基准总体成功率 60.3% 排第一。
研究背景与动机¶
- 领域现状:CroCo 开创了跨视图补全作为 3D 视觉预训练任务,被 DUSt3R、MASt3R 等基础模型采用
- 现有痛点:
- CroCo 的跨视图补全在非共视区域是 ill-posed 的——被遮挡或不在视野中的像素无法从另一视图重建
- CroCo 要求图像对至少 50% 重叠,限制了训练数据多样性
- 非共视区域学到的是模糊重建,浪费模型容量
- 核心矛盾:跨视图补全在非共视区域无意义,但真实场景大量存在低重叠图像对
- 本文要解决什么? 设计一个在共视和非共视区域都有效的预训练任务
- 切入角度:从"重建"转为"分类"——不重建像素值,而是预测每个像素的共视状态
- 核心idea一句话:用三类共视性分割替代跨视图补全,在所有区域都有明确训练信号
方法详解¶
整体框架¶
输入:两张不同视角的场景图像。预训练:ViT 编码器独立处理两张图,Transformer 解码器通过交叉注意力融合信息,对每个像素预测 3 类共视性标签。微调:加位姿回归头,预测相对平移向量和四元数旋转。
关键设计¶
- 共视性分割预训练目标:
- 做什么:对每个像素预测其在另一视图中的状态——共视、遮挡、视野外
- 核心思路:ViT 编码器对称处理两张图(无 masking),解码器用交叉注意力做跨视图推理,FC 层输出 3 类 softmax。交叉熵损失训练
-
设计动机:模型必须理解 3D 结构、遮挡关系和视野范围才能正确预测,且非共视区域也有清晰训练信号
-
对称前向传播:
- 做什么:两张图用同一编码器处理,不做 masking(CroCo 用非对称 masking)
-
设计动机:与下游任务更一致,更高效
-
两阶段微调策略:
- Phase 1:冻结骨干只训练位姿回归头,homoscedastic loss 平衡平移和旋转
- Phase 2:解冻全网络,联合优化位姿损失+共视性分割损失(保留分割头)
- 设计动机:保留分割能力提供正则化
损失函数 / 训练策略¶
- 预训练:交叉熵 L_ce = L_ce1 + L_ce2
- 微调:homoscedastic loss 自动平衡平移、旋转和分割三项损失
实验关键数据¶
主实验¶
Map-free Relocalization benchmark
| 预训练方法 | ε_t < 0.25m (%) | ε_t < 0.5m (%) | ε_t < 5m (%) |
|---|---|---|---|
| CroCo v2 (官方) | 75.7 | 87.4 | 91.5 |
| Alligat0R | 87.7 | 94.9 | 95.9 |
RUBIK benchmark:总体成功率 60.3% 排第一,超越 DUSt3R (54.8%)、MASt3R (53.6%)
消融实验¶
| 配置 | 说明 |
|---|---|
| w/o 共视性头(微调时移除) | 性能下降,保留分割头提供正则化 |
| 仅 nuScenes 数据 | ScanNet 室内数据带来互补提升 |
| Phase 1 only | 不解冻骨干性能明显更低 |
关键发现¶
- 低重叠场景优势巨大:20-40% 重叠区间 Alligat0R 成功率 61.5%
- 速度优势:直接回归位姿仅需 57ms(DUSt3R 需 257ms)
- 零样本泛化:ETH3D 上零样本 correspondence 估计超越 CroCo v2
亮点与洞察¶
- 预训练范式转换:从"重建"到"分类",简洁有力地解决 CroCo 非共视区域 ill-posed 问题
- 可解释性:分割输出直观显示模型的几何理解
- 保留分割头的正则化效果:微调时不丢弃预训练头,值得推广的微调策略
- 大规模数据集 Cub3:5M 图像对+密集共视性标注
局限性 / 可改进方向¶
- 仅在位姿回归验证,未测试 3D 重建、高斯溅射等下游
- 三类分类可能过于粗糙,缺少"部分遮挡"等细粒度状态
- 可以与 DUSt3R/MASt3R 结合,验证 3D 重建效果
相关工作与启发¶
- vs CroCo/CroCo v2: CroCo 在非共视区域 ill-posed,本文用分割替代,全局有效
- vs DUSt3R/MASt3R: 基于 CroCo 的基础模型,换用 Alligat0R 预训练可能进一步提升
- vs Reloc3R: 同为位姿回归但 Reloc3R 只预测平移方向,本文预测度量平移
评分¶
- 新颖性: ⭐⭐⭐⭐ 简洁的预训练任务设计直击 CroCo 的核心局限
- 实验充分度: ⭐⭐⭐⭐ 多 benchmark 验证+消融+可视化+泛化测试
- 写作质量: ⭐⭐⭐⭐ 动机清晰,对比公平
- 价值: ⭐⭐⭐⭐ 可能影响整个 CroCo 生态的预训练范式