ColabSfM: Collaborative Structure-from-Motion by Point Cloud Registration¶

会议: CVPR 2025
arXiv: 2503.17093
代码: https://github.com/EricssonResearch/ColabSfM
领域: 3D视觉
关键词: 协同SfM, 点云配准, 地图融合, 隐私保护, 三维重建

一句话总结¶

提出ColabSfM范式——通过3D点云配准（而非视觉描述子匹配）来融合分布式SfM重建结果，并构建了专用的SfM配准数据集生成管线和改进的配准模型RefineRoITr。

研究背景与动机¶

机器人和XR设备需要在环境地图中精确构建和定位。各厂商使用不同的SfM管线和特征提取器，导致视觉描述子不兼容，无法相互共享地图。传统的地图融合方法依赖视觉描述子匹配（3D-3D或2D-3D对应），存在三个关键问题：

互操作性差：不同管线的描述子不兼容（如SIFT vs SuperPoint）
隐私风险：暴露视觉描述子可能被反转攻击恢复原始图像
可扩展性差：存储描述子导致地图大小增加2-3个数量级

本文提出一个根本性的问题：能否仅使用3D几何信息来融合SfM地图？ 答案是将其转化为点云配准问题。然而，现有配准方法在RGB-D/LiDAR数据上训练，直接应用于SfM点云效果极差（分布差异大），且缺少SfM点云配准的训练数据集。

方法详解¶

整体框架¶

ColabSfM包含三个核心贡献：(1) 可扩展的SfM配准数据集生成管线，从现有SfM数据集（MegaDepth）中通过合成相机轨迹生成部分重建对；(2) 在RoITr基础上增加神经精炼阶段的RefineRoITr模型；(3) 完整的SfM点云配准任务定义和评估。输入为两个SfM重建的点云\(\mathcal{P}, \mathcal{Q}\)，输出为它们之间的相似变换\((s, R, t)\)。

关键设计¶

合成SfM配准数据集生成管线:
- 功能：从单个大规模SfM重建中生成多对有重叠的部分重建
- 核心思路：两种策略——(a) 随机点采样：从场景中采样3D点集及其可见图像；(b) 合成轨迹：随机选起始图像，用测地旋转距离+欧几里得距离加权组合的最近邻策略顺序选取后续图像（75-300张），模拟真实相机运动。使用原始重建的固定相机位姿进行重新三角化，保证真值对应准确
- 设计动机：随机图像集合的点云与视频序列的点云有分布差异（关键点密度、遮挡模式不同），合成轨迹弥补了这个gap；混合训练两种策略提高泛化性
RefineRoITr（神经精炼配准模型）:
- 功能：在RoITr的粗配准基础上增加局部精炼Transformer提高匹配精度
- 核心思路：RoITr通过PPF（Point Pair Features）编码实现旋转不变性。RefineRoITr在解码器提取的局部邻域特征\(\hat{\mathbf{G}}^X, \hat{\mathbf{G}}^Y\)上增加一个精炼Transformer \(r_\theta\)，包含4层交替的self-attention和cross-attention（类似LightGlue但为局部注意力），输出增强的邻域特征再送入Sinkhorn算法求解最优传输。计算开销仅增加约3%
- 设计动机：RoITr的精炼仅通过Sinkhorn对浅层特征优化，在SfM点云的大尺度场景中不够精确；跨点云的局部特征交互能提供更丰富的匹配线索
归一化与法向量处理:
- 功能：处理SfM重建中尺度不确定性和法向量方向不一致的问题
- 核心思路：Sim(3)训练时用各自最大奇异值归一化两个点云；SE(3)训练时用源点云的奇异值同时归一化两个。法向量方向通过随机选取观测该点的一个相机中心来对齐，而非简单朝向坐标原点
- 设计动机：SfM重建缺乏度量尺度，且多传感器采集导致朝原点对齐法向量不一致；利用3D track的相机可见性信息可获得一致的法向量朝向

损失函数 / 训练策略¶

超点匹配损失\(\mathcal{L}_s\)：基于overlap-aware circle loss
点匹配损失\(\mathcal{L}_p\)：Sinkhorn算法后真值对应的负对数似然
总损失\(\mathcal{L} = \mathcal{L}_s + \mathcal{L}_p\)
训练时对点云重叠度要求 > 30%，共约22000对（20000训练+2000测试）

实验关键数据¶

主实验¶

方法	数据集	IR(SE3)	FMR(SE3)	RR(SE3)	IR(Sim3)	RR(Sim3)
RoITr (3DMatch)	MegaDepth	3.0	12.6	0.0	1.6	0.8
OverlapPredator (3DMatch)	MegaDepth	6.1	35.5	10.0	3.6	2.1
RefineRoITr (3DM+Mega)	MegaDepth	48.7	95.1	67.7	44.6	44.3
RefineRoITr (Mega only)	MegaDepth	51.0	96.5	70.2	44.6	42.7

消融实验（Cambridge Landmarks, SE(3)）¶

场景	RoITr (3DM+Mega) IR	RefineRoITr (Mega) IR	说明
Great Court	52.1	70.9	大场景提升显著
Kings College	39.6	57.6	+18.0
Old Hospital	21.9	31.5	+9.6
Shop Facade	28.0	41.6	+13.6
St Mary's Church	64.5	81.8	+17.3

关键发现¶

在3DMatch上训练的配准模型直接用于SfM点云效果极差（RR几乎为0），验证了领域差异的严重性
在本文数据集上训练后，RR从0%提升到70.2%（SE3），证明数据集的关键作用
RefineRoITr相比RoITr在所有场景上持续提升，且计算开销仅增加3%
合成轨迹策略对视频序列场景（如Cambridge Landmarks）的泛化至关重要

亮点与洞察¶

范式创新：将SfM地图融合从视觉描述子匹配转化为纯3D点云配准，同时解决互操作性、隐私和可扩展性三个问题
数据集生成管线可复用性强：只需现有SfM数据集即可生成训练对，适用于任何局部特征
RefineRoITr的局部精炼Transformer设计巧妙，仅增加3%开销却带来显著性能提升

局限与展望¶

依赖点云有足够重叠（>30%），低重叠场景仍然困难
RR在Sim(3)设置下仍不够高（44.3%），尺度估计是瓶颈
仅使用几何信息，未利用颜色/纹理等辅助信息，可能在几何相似但语义不同的场景中失败
法向量估计质量依赖Open3D的33邻域估计，稀疏点云中可能不准确

评分¶

新颖性: ⭐⭐⭐⭐ 范式创新性强，将SfM地图融合转化为点云配准问题
实验充分度: ⭐⭐⭐⭐⭐ MegaDepth/Cambridge/7-Scenes多数据集评估，SE(3)/Sim(3)两种设置
写作质量: ⭐⭐⭐⭐ 问题动机清晰，管线描述详细，算法伪代码完整
价值: ⭐⭐⭐⭐ 对分布式多设备协同建图有实际意义，隐私保护和互操作性是实际需求