ColabSfM: Collaborative Structure-from-Motion by Point Cloud Registration¶
会议: CVPR 2025
arXiv: 2503.17093
代码: https://github.com/EricssonResearch/ColabSfM
领域: 3D视觉
关键词: 协同SfM, 点云配准, 地图融合, 隐私保护, 三维重建
一句话总结¶
提出ColabSfM范式——通过3D点云配准(而非视觉描述子匹配)来融合分布式SfM重建结果,并构建了专用的SfM配准数据集生成管线和改进的配准模型RefineRoITr。
研究背景与动机¶
机器人和XR设备需要在环境地图中精确构建和定位。各厂商使用不同的SfM管线和特征提取器,导致视觉描述子不兼容,无法相互共享地图。传统的地图融合方法依赖视觉描述子匹配(3D-3D或2D-3D对应),存在三个关键问题:
- 互操作性差:不同管线的描述子不兼容(如SIFT vs SuperPoint)
- 隐私风险:暴露视觉描述子可能被反转攻击恢复原始图像
- 可扩展性差:存储描述子导致地图大小增加2-3个数量级
本文提出一个根本性的问题:能否仅使用3D几何信息来融合SfM地图? 答案是将其转化为点云配准问题。然而,现有配准方法在RGB-D/LiDAR数据上训练,直接应用于SfM点云效果极差(分布差异大),且缺少SfM点云配准的训练数据集。
方法详解¶
整体框架¶
ColabSfM包含三个核心贡献:(1) 可扩展的SfM配准数据集生成管线,从现有SfM数据集(MegaDepth)中通过合成相机轨迹生成部分重建对;(2) 在RoITr基础上增加神经精炼阶段的RefineRoITr模型;(3) 完整的SfM点云配准任务定义和评估。输入为两个SfM重建的点云\(\mathcal{P}, \mathcal{Q}\),输出为它们之间的相似变换\((s, R, t)\)。
关键设计¶
-
合成SfM配准数据集生成管线:
- 功能:从单个大规模SfM重建中生成多对有重叠的部分重建
- 核心思路:两种策略——(a) 随机点采样:从场景中采样3D点集及其可见图像;(b) 合成轨迹:随机选起始图像,用测地旋转距离+欧几里得距离加权组合的最近邻策略顺序选取后续图像(75-300张),模拟真实相机运动。使用原始重建的固定相机位姿进行重新三角化,保证真值对应准确
- 设计动机:随机图像集合的点云与视频序列的点云有分布差异(关键点密度、遮挡模式不同),合成轨迹弥补了这个gap;混合训练两种策略提高泛化性
-
RefineRoITr(神经精炼配准模型):
- 功能:在RoITr的粗配准基础上增加局部精炼Transformer提高匹配精度
- 核心思路:RoITr通过PPF(Point Pair Features)编码实现旋转不变性。RefineRoITr在解码器提取的局部邻域特征\(\hat{\mathbf{G}}^X, \hat{\mathbf{G}}^Y\)上增加一个精炼Transformer \(r_\theta\),包含4层交替的self-attention和cross-attention(类似LightGlue但为局部注意力),输出增强的邻域特征再送入Sinkhorn算法求解最优传输。计算开销仅增加约3%
- 设计动机:RoITr的精炼仅通过Sinkhorn对浅层特征优化,在SfM点云的大尺度场景中不够精确;跨点云的局部特征交互能提供更丰富的匹配线索
-
归一化与法向量处理:
- 功能:处理SfM重建中尺度不确定性和法向量方向不一致的问题
- 核心思路:Sim(3)训练时用各自最大奇异值归一化两个点云;SE(3)训练时用源点云的奇异值同时归一化两个。法向量方向通过随机选取观测该点的一个相机中心来对齐,而非简单朝向坐标原点
- 设计动机:SfM重建缺乏度量尺度,且多传感器采集导致朝原点对齐法向量不一致;利用3D track的相机可见性信息可获得一致的法向量朝向
损失函数 / 训练策略¶
- 超点匹配损失\(\mathcal{L}_s\):基于overlap-aware circle loss
- 点匹配损失\(\mathcal{L}_p\):Sinkhorn算法后真值对应的负对数似然
- 总损失\(\mathcal{L} = \mathcal{L}_s + \mathcal{L}_p\)
- 训练时对点云重叠度要求 > 30%,共约22000对(20000训练+2000测试)
实验关键数据¶
主实验¶
| 方法 | 数据集 | IR(SE3) | FMR(SE3) | RR(SE3) | IR(Sim3) | RR(Sim3) |
|---|---|---|---|---|---|---|
| RoITr (3DMatch) | MegaDepth | 3.0 | 12.6 | 0.0 | 1.6 | 0.8 |
| OverlapPredator (3DMatch) | MegaDepth | 6.1 | 35.5 | 10.0 | 3.6 | 2.1 |
| RefineRoITr (3DM+Mega) | MegaDepth | 48.7 | 95.1 | 67.7 | 44.6 | 44.3 |
| RefineRoITr (Mega only) | MegaDepth | 51.0 | 96.5 | 70.2 | 44.6 | 42.7 |
消融实验(Cambridge Landmarks, SE(3))¶
| 场景 | RoITr (3DM+Mega) IR | RefineRoITr (Mega) IR | 说明 |
|---|---|---|---|
| Great Court | 52.1 | 70.9 | 大场景提升显著 |
| Kings College | 39.6 | 57.6 | +18.0 |
| Old Hospital | 21.9 | 31.5 | +9.6 |
| Shop Facade | 28.0 | 41.6 | +13.6 |
| St Mary's Church | 64.5 | 81.8 | +17.3 |
关键发现¶
- 在3DMatch上训练的配准模型直接用于SfM点云效果极差(RR几乎为0),验证了领域差异的严重性
- 在本文数据集上训练后,RR从0%提升到70.2%(SE3),证明数据集的关键作用
- RefineRoITr相比RoITr在所有场景上持续提升,且计算开销仅增加3%
- 合成轨迹策略对视频序列场景(如Cambridge Landmarks)的泛化至关重要
亮点与洞察¶
- 范式创新:将SfM地图融合从视觉描述子匹配转化为纯3D点云配准,同时解决互操作性、隐私和可扩展性三个问题
- 数据集生成管线可复用性强:只需现有SfM数据集即可生成训练对,适用于任何局部特征
- RefineRoITr的局部精炼Transformer设计巧妙,仅增加3%开销却带来显著性能提升
局限与展望¶
- 依赖点云有足够重叠(>30%),低重叠场景仍然困难
- RR在Sim(3)设置下仍不够高(44.3%),尺度估计是瓶颈
- 仅使用几何信息,未利用颜色/纹理等辅助信息,可能在几何相似但语义不同的场景中失败
- 法向量估计质量依赖Open3D的33邻域估计,稀疏点云中可能不准确
相关工作与启发¶
- 与传统的基于描述子的协同建图方法(如Dusmanu等)形成本质区别:完全不需要视觉描述子
- PPF(Point Pair Features)的旋转不变性对SfM配准至关重要,因为SfM的参考系是任意的
- 数据集生成管线的思路(用合成轨迹从现有重建中提取部分重建对)可推广到其他3D任务的数据生成
评分¶
- 新颖性: ⭐⭐⭐⭐ 范式创新性强,将SfM地图融合转化为点云配准问题
- 实验充分度: ⭐⭐⭐⭐⭐ MegaDepth/Cambridge/7-Scenes多数据集评估,SE(3)/Sim(3)两种设置
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,管线描述详细,算法伪代码完整
- 价值: ⭐⭐⭐⭐ 对分布式多设备协同建图有实际意义,隐私保护和互操作性是实际需求
相关论文¶
- [ICCV 2025] TurboReg: TurboClique for Robust and Efficient Point Cloud Registration
- [CVPR 2025] Light3R-SfM: Towards Feed-forward Structure-from-Motion
- [ICCV 2025] BUFFER-X: Towards Zero-Shot Point Cloud Registration in Diverse Scenes
- [CVPR 2025] P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning
- [CVPR 2025] Dense-SfM: Structure from Motion with Dense Consistent Matching