Alligat0R: Pre-Training through Covisibility Segmentation for Relative Camera Pose Regression¶

会议: NeurIPS 2025
arXiv: 2503.07561
代码: https://github.com/thibautloiseau/alligat0r
领域: 3D视觉 / 相机位姿估计 / 预训练
关键词: 共视性分割, 预训练, 相对位姿回归, CroCo, ViT

一句话总结¶

用共视性分割（covisibility segmentation）替代 CroCo 的跨视图补全作为双目视觉预训练任务，对每个像素预测"共视/遮挡/视野外"三类标签，在低重叠场景下显著超越 CroCo，RUBIK 基准总体成功率 60.3% 排第一。

研究背景与动机¶

领域现状：CroCo 开创了跨视图补全作为 3D 视觉预训练任务，被 DUSt3R、MASt3R 等基础模型采用
现有痛点：
CroCo 的跨视图补全在非共视区域是 ill-posed 的——被遮挡或不在视野中的像素无法从另一视图重建
CroCo 要求图像对至少 50% 重叠，限制了训练数据多样性
非共视区域学到的是模糊重建，浪费模型容量
核心矛盾：跨视图补全在非共视区域无意义，但真实场景大量存在低重叠图像对
本文要解决什么？ 设计一个在共视和非共视区域都有效的预训练任务
切入角度：从"重建"转为"分类"——不重建像素值，而是预测每个像素的共视状态
核心idea一句话：用三类共视性分割替代跨视图补全，在所有区域都有明确训练信号

方法详解¶

整体框架¶

输入：两张不同视角的场景图像。预训练：ViT 编码器独立处理两张图，Transformer 解码器通过交叉注意力融合信息，对每个像素预测 3 类共视性标签。微调：加位姿回归头，预测相对平移向量和四元数旋转。

关键设计¶

共视性分割预训练目标:
做什么：对每个像素预测其在另一视图中的状态——共视、遮挡、视野外
核心思路：ViT 编码器对称处理两张图（无 masking），解码器用交叉注意力做跨视图推理，FC 层输出 3 类 softmax。交叉熵损失训练
设计动机：模型必须理解 3D 结构、遮挡关系和视野范围才能正确预测，且非共视区域也有清晰训练信号
对称前向传播:
做什么：两张图用同一编码器处理，不做 masking（CroCo 用非对称 masking）
设计动机：与下游任务更一致，更高效
两阶段微调策略:
Phase 1：冻结骨干只训练位姿回归头，homoscedastic loss 平衡平移和旋转
Phase 2：解冻全网络，联合优化位姿损失+共视性分割损失（保留分割头）
设计动机：保留分割能力提供正则化

损失函数 / 训练策略¶

预训练：交叉熵 L_ce = L_ce1 + L_ce2
微调：homoscedastic loss 自动平衡平移、旋转和分割三项损失

实验关键数据¶

主实验¶

Map-free Relocalization benchmark

预训练方法	ε_t < 0.25m (%)	ε_t < 0.5m (%)	ε_t < 5m (%)
CroCo v2 (官方)	75.7	87.4	91.5
Alligat0R	87.7	94.9	95.9

RUBIK benchmark：总体成功率 60.3% 排第一，超越 DUSt3R (54.8%)、MASt3R (53.6%)

消融实验¶

配置	说明
w/o 共视性头（微调时移除）	性能下降，保留分割头提供正则化
仅 nuScenes 数据	ScanNet 室内数据带来互补提升
Phase 1 only	不解冻骨干性能明显更低

关键发现¶

低重叠场景优势巨大：20-40% 重叠区间 Alligat0R 成功率 61.5%
速度优势：直接回归位姿仅需 57ms（DUSt3R 需 257ms）
零样本泛化：ETH3D 上零样本 correspondence 估计超越 CroCo v2

亮点与洞察¶

预训练范式转换：从"重建"到"分类"，简洁有力地解决 CroCo 非共视区域 ill-posed 问题
可解释性：分割输出直观显示模型的几何理解
保留分割头的正则化效果：微调时不丢弃预训练头，值得推广的微调策略
大规模数据集 Cub3：5M 图像对+密集共视性标注

局限性 / 可改进方向¶

仅在位姿回归验证，未测试 3D 重建、高斯溅射等下游
三类分类可能过于粗糙，缺少"部分遮挡"等细粒度状态
可以与 DUSt3R/MASt3R 结合，验证 3D 重建效果

评分¶

新颖性: ⭐⭐⭐⭐ 简洁的预训练任务设计直击 CroCo 的核心局限
实验充分度: ⭐⭐⭐⭐ 多 benchmark 验证+消融+可视化+泛化测试
写作质量: ⭐⭐⭐⭐ 动机清晰，对比公平
价值: ⭐⭐⭐⭐ 可能影响整个 CroCo 生态的预训练范式