Practical Solutions to the Relative Pose of Three Calibrated Cameras¶

会议: CVPR 2025
arXiv: 2303.16078
代码: https://github.com/kocurvik/threeview
领域: 3D视觉
关键词: 三视图相对位姿, 最小求解器, 均值点对应, RANSAC, 多视图几何

一句话总结¶

本文针对三个标定相机的四点三视图（4p3v）相对位姿估计这一经典难题，提出了基于近似几何的实用求解方案——利用仿射相机近似或均值点近似对应来估计前两个相机的相对位姿，再通过P3P注册第三个相机，配合局部优化在真实数据上取得了SOTA精度。

研究背景与动机¶

相机几何估计是计算机视觉中许多应用（视觉导航、SfM、增强现实、自动驾驶、视觉定位）的核心问题。在RANSAC框架下，使用尽可能少的对应点来估计模型至关重要，因为RANSAC的迭代次数随所需对应点数量指数增长。

三个标定相机的相对位姿估计（尤其是4p3v配置——3个视图中均可见的4个点对应）是一个基础但极具挑战性的问题。该问题有272个理论解，代数方程极为复杂。现有SOTA方法（Hruby的同伦延续法）在无噪声数据上的成功率仅为26.3%，且实现复杂；另一方法（Nister的极点搜索法）无公开实现。

相比之下，五点+P3P（5pt+P3P）求解器采用"先估计两视图位姿，再注册第三视图"的简单策略，效果良好但需要5个对应点。本文的核心思路是：能否用只有4个对应点的情况，通过近似方法估计前两个相机的几何关系，再利用P3P注册第三个相机？

方法详解¶

整体框架¶

方法将4p3v问题分解为两步：(1) 利用4个对应点估计前两个相机的近似相对位姿；(2) 使用3个三角化的3D点通过P3P求解器注册第三个相机。提出两类近似方案：仿射近似（4p3v(A)）和均值点近似（4p3v(M)），并设计多种改进策略提升精度。

关键设计¶

仿射近似求解器 4p3v(A):
- 功能：利用仿射相机模型近似前两视图的几何关系
- 核心思路：用4个点对应估计仿射基础矩阵 \(\mathbf{F}_A\)（线性求解），三角化3个点后用P3P注册第三个相机
- 设计动机：仿射基础矩阵可从4点线性求解，计算极快。虽然仿射近似可能比较粗糙，但先前工作表明在RANSAC配合局部优化时仍能获得良好精度
均值点近似求解器 4p3v(M):
- 功能：通过生成一个近似的第5个对应点，将4p3v问题转化为5pt+P3P问题
- 核心思路：在平行透视投影假设下，3个3D点的均值投影到两幅图像中的均值点。因此取3个对应点在两视图中的图像均值点作为第5个近似对应 \(\mathbf{m}^1 \leftrightarrow \mathbf{m}^2\)，然后调用标准5pt求解器+P3P
- 设计动机：均值点近似可视为一阶单应近似，误差有上界保证——极线必然穿过对应三角形内部，因此均值点到极线的最大距离受三角形大小约束。这种近似比仿射近似精确得多，且不需要额外复杂实现
改进策略（使近似求解器实用化）:
- 功能：提升近似求解器在RANSAC中的鲁棒性和精度
- 核心思路：
  - 4p3v(M±δ)：在均值点附近生成两个额外偏移点，调用3次5pt求解器，增加候选解多样性
  - 早期非最小重拟合（ENM）：用近似几何检测内点后，用非最小5pt求解器重新估计更精确的两视图几何
  - 第四点过滤（+F）：利用第三视图中第4个点过滤不合理的解
  - 第四点精化（+R）：使用LM优化在4点3视图上最小化极线误差，2次迭代即可显著提升精度
- 设计动机：单独的近似可能导致误差传播到三角化和第三相机注册中，这些改进策略可在不显著增加计算量的前提下大幅提升精度

损失函数 / 训练策略¶

本文为几何方法而非学习方法。评估指标为位姿误差（旋转和平移角度误差的最大值），以及不同阈值下的AUC值。在RANSAC框架（PoseLib和GC-RANSAC）中评估，使用SuperPoint特征和LightGlue匹配器提取对应点。

实验关键数据¶

主实验¶

PhotoTourism数据集（12场景平均，PoseLib RANSAC），AUC@10°：

方法	AUC@10°	AVG误差(°)	中位误差(°)	运行时间(ms)
4p3v(HC) [Hruby]	73.53	16.37	11.62	164.10
5pt+P3P (基线)	74.30	15.40	11.60	133.77
4p3v(M+δ)+R+F+ENM	75.90	15.10	11.50	138.12

Cambridge Landmarks数据集：

方法	AUC@10°	AVG误差(°)	运行时间(ms)
4p3v(HC)	64.58	18.73	60.11
5pt+P3P	65.33	17.46	24.04
4p3v(M+δ)+R+F+ENM	66.83	16.98	39.39

消融实验¶

两视图精度（PhotoTourism中位旋转误差，度）：

配置	中位误差	说明
5pt（标准）	~15°	基线
4p(A)（仿射，无ENM）	~70°	仿射近似太粗糙
4p(M)（均值点，无ENM）	~20°	均值点近似显著优于仿射
4p(M±δ)（均值点+偏移）	~16°	接近5pt精度
4p(M±δ)+ENM	~15°	与5pt+ENM几乎相同

δ偏移量选择消融：δ = 0.08 × (三角形最长边) 效果最佳，但参数不敏感。

关键发现¶

均值点近似（M系列）在所有场景上显著优于仿射近似（A系列），且对场景几何和RANSAC阈值更鲁棒
配合ENM重拟合和+R精化后，4p3v(M)系列求解器在大多数场景上优于5pt+P3P基线和HC求解器
均值点对应的最优位置确实接近三角形重心（贝叶斯坐标均值(0.33, 0.33)），实验验证了理论分析
4p3v(A)经LO-RANSAC后性能可接近4p3v(M)，但4p3v(M)更稳定
在90,000个相机三元组的大规模实验中，方法一致优于现有SOTA

亮点与洞察¶

化繁为简的设计哲学：将一个有272个解的复杂代数问题转化为使用现有成熟求解器（5pt+P3P）的近似问题，思路优雅且工程友好
均值点近似的理论保证：证明极线必穿过对应三角形，给出均值点误差的上界，为近似的可靠性提供了数学基础
模块化改进策略：ENM、+F、+R等改进策略独立正交，可灵活组合，实用性强
首次大规模真实数据评估：在18个真实场景、90000个三元组上系统评估4p3v问题，填补了文献空白
易于实现：整个方法基于已有的高效求解器，不需要训练MLP分类器或复杂的同伦延续

局限与展望¶

4p3v(M)的精度依赖于场景几何条件（深度分布、相机间角度等），在某些极端配置下近似误差较大
对于(4,4,4)配置仍是近似解，而非精确的最小问题解
仿射近似在相机主轴角度较大时误差显著增大
可进一步探索更好的第5个对应点生成策略（如基于局部单应的方法）
未来可将该思路推广到含未知焦距或广义相机的更复杂配置

评分¶

新颖性: ⭐⭐⭐⭐ 用均值点近似生成第5个对应的思路巧妙且有理论支撑
实验充分度: ⭐⭐⭐⭐⭐ 在3个数据集18个场景90000三元组上的系统评估非常全面
写作质量: ⭐⭐⭐⭐ 方法表述清晰，改进策略层层递进
价值: ⭐⭐⭐⭐ 为经典4p3v问题提供了首个真正实用的解决方案