Practical Solutions to the Relative Pose of Three Calibrated Cameras¶
会议: CVPR 2025
arXiv: 2303.16078
代码: https://github.com/kocurvik/threeview
领域: 3D视觉
关键词: 三视图相对位姿, 最小求解器, 均值点对应, RANSAC, 多视图几何
一句话总结¶
本文针对三个标定相机的四点三视图(4p3v)相对位姿估计这一经典难题,提出了基于近似几何的实用求解方案——利用仿射相机近似或均值点近似对应来估计前两个相机的相对位姿,再通过P3P注册第三个相机,配合局部优化在真实数据上取得了SOTA精度。
研究背景与动机¶
相机几何估计是计算机视觉中许多应用(视觉导航、SfM、增强现实、自动驾驶、视觉定位)的核心问题。在RANSAC框架下,使用尽可能少的对应点来估计模型至关重要,因为RANSAC的迭代次数随所需对应点数量指数增长。
三个标定相机的相对位姿估计(尤其是4p3v配置——3个视图中均可见的4个点对应)是一个基础但极具挑战性的问题。该问题有272个理论解,代数方程极为复杂。现有SOTA方法(Hruby的同伦延续法)在无噪声数据上的成功率仅为26.3%,且实现复杂;另一方法(Nister的极点搜索法)无公开实现。
相比之下,五点+P3P(5pt+P3P)求解器采用"先估计两视图位姿,再注册第三视图"的简单策略,效果良好但需要5个对应点。本文的核心思路是:能否用只有4个对应点的情况,通过近似方法估计前两个相机的几何关系,再利用P3P注册第三个相机?
方法详解¶
整体框架¶
方法将4p3v问题分解为两步:(1) 利用4个对应点估计前两个相机的近似相对位姿;(2) 使用3个三角化的3D点通过P3P求解器注册第三个相机。提出两类近似方案:仿射近似(4p3v(A))和均值点近似(4p3v(M)),并设计多种改进策略提升精度。
关键设计¶
-
仿射近似求解器 4p3v(A):
- 功能:利用仿射相机模型近似前两视图的几何关系
- 核心思路:用4个点对应估计仿射基础矩阵 \(\mathbf{F}_A\)(线性求解),三角化3个点后用P3P注册第三个相机
- 设计动机:仿射基础矩阵可从4点线性求解,计算极快。虽然仿射近似可能比较粗糙,但先前工作表明在RANSAC配合局部优化时仍能获得良好精度
-
均值点近似求解器 4p3v(M):
- 功能:通过生成一个近似的第5个对应点,将4p3v问题转化为5pt+P3P问题
- 核心思路:在平行透视投影假设下,3个3D点的均值投影到两幅图像中的均值点。因此取3个对应点在两视图中的图像均值点作为第5个近似对应 \(\mathbf{m}^1 \leftrightarrow \mathbf{m}^2\),然后调用标准5pt求解器+P3P
- 设计动机:均值点近似可视为一阶单应近似,误差有上界保证——极线必然穿过对应三角形内部,因此均值点到极线的最大距离受三角形大小约束。这种近似比仿射近似精确得多,且不需要额外复杂实现
-
改进策略(使近似求解器实用化):
- 功能:提升近似求解器在RANSAC中的鲁棒性和精度
- 核心思路:
- 4p3v(M±δ):在均值点附近生成两个额外偏移点,调用3次5pt求解器,增加候选解多样性
- 早期非最小重拟合(ENM):用近似几何检测内点后,用非最小5pt求解器重新估计更精确的两视图几何
- 第四点过滤(+F):利用第三视图中第4个点过滤不合理的解
- 第四点精化(+R):使用LM优化在4点3视图上最小化极线误差,2次迭代即可显著提升精度
- 设计动机:单独的近似可能导致误差传播到三角化和第三相机注册中,这些改进策略可在不显著增加计算量的前提下大幅提升精度
损失函数 / 训练策略¶
本文为几何方法而非学习方法。评估指标为位姿误差(旋转和平移角度误差的最大值),以及不同阈值下的AUC值。在RANSAC框架(PoseLib和GC-RANSAC)中评估,使用SuperPoint特征和LightGlue匹配器提取对应点。
实验关键数据¶
主实验¶
PhotoTourism数据集(12场景平均,PoseLib RANSAC),AUC@10°:
| 方法 | AUC@10° | AVG误差(°) | 中位误差(°) | 运行时间(ms) |
|---|---|---|---|---|
| 4p3v(HC) [Hruby] | 73.53 | 16.37 | 11.62 | 164.10 |
| 5pt+P3P (基线) | 74.30 | 15.40 | 11.60 | 133.77 |
| 4p3v(M+δ)+R+F+ENM | 75.90 | 15.10 | 11.50 | 138.12 |
Cambridge Landmarks数据集:
| 方法 | AUC@10° | AVG误差(°) | 运行时间(ms) |
|---|---|---|---|
| 4p3v(HC) | 64.58 | 18.73 | 60.11 |
| 5pt+P3P | 65.33 | 17.46 | 24.04 |
| 4p3v(M+δ)+R+F+ENM | 66.83 | 16.98 | 39.39 |
消融实验¶
两视图精度(PhotoTourism中位旋转误差,度):
| 配置 | 中位误差 | 说明 |
|---|---|---|
| 5pt(标准) | ~15° | 基线 |
| 4p(A)(仿射,无ENM) | ~70° | 仿射近似太粗糙 |
| 4p(M)(均值点,无ENM) | ~20° | 均值点近似显著优于仿射 |
| 4p(M±δ)(均值点+偏移) | ~16° | 接近5pt精度 |
| 4p(M±δ)+ENM | ~15° | 与5pt+ENM几乎相同 |
δ偏移量选择消融:δ = 0.08 × (三角形最长边) 效果最佳,但参数不敏感。
关键发现¶
- 均值点近似(M系列)在所有场景上显著优于仿射近似(A系列),且对场景几何和RANSAC阈值更鲁棒
- 配合ENM重拟合和+R精化后,4p3v(M)系列求解器在大多数场景上优于5pt+P3P基线和HC求解器
- 均值点对应的最优位置确实接近三角形重心(贝叶斯坐标均值(0.33, 0.33)),实验验证了理论分析
- 4p3v(A)经LO-RANSAC后性能可接近4p3v(M),但4p3v(M)更稳定
- 在90,000个相机三元组的大规模实验中,方法一致优于现有SOTA
亮点与洞察¶
- 化繁为简的设计哲学:将一个有272个解的复杂代数问题转化为使用现有成熟求解器(5pt+P3P)的近似问题,思路优雅且工程友好
- 均值点近似的理论保证:证明极线必穿过对应三角形,给出均值点误差的上界,为近似的可靠性提供了数学基础
- 模块化改进策略:ENM、+F、+R等改进策略独立正交,可灵活组合,实用性强
- 首次大规模真实数据评估:在18个真实场景、90000个三元组上系统评估4p3v问题,填补了文献空白
- 易于实现:整个方法基于已有的高效求解器,不需要训练MLP分类器或复杂的同伦延续
局限与展望¶
- 4p3v(M)的精度依赖于场景几何条件(深度分布、相机间角度等),在某些极端配置下近似误差较大
- 对于(4,4,4)配置仍是近似解,而非精确的最小问题解
- 仿射近似在相机主轴角度较大时误差显著增大
- 可进一步探索更好的第5个对应点生成策略(如基于局部单应的方法)
- 未来可将该思路推广到含未知焦距或广义相机的更复杂配置
相关工作与启发¶
- vs 4p3v(HC) [Hruby 2022]: HC方法需要训练MLP分类器选择起始解,成功率低(26.3%)且实现复杂;本文方法更简单鲁棒,在真实数据上精度更高
- vs Nister极点搜索: Nister方法需搜索10次degree曲线上的1000个点,无公开实现;本文方法采用均值点近似,误差有上界保证
- vs 5pt+P3P基线: 5pt+P3P需要(5,5,3)配置而非(4,4,4);本文通过生成近似对应点将(4,4,4)转化为(5,5,3),配合优化后精度更高
评分¶
- 新颖性: ⭐⭐⭐⭐ 用均值点近似生成第5个对应的思路巧妙且有理论支撑
- 实验充分度: ⭐⭐⭐⭐⭐ 在3个数据集18个场景90000三元组上的系统评估非常全面
- 写作质量: ⭐⭐⭐⭐ 方法表述清晰,改进策略层层递进
- 价值: ⭐⭐⭐⭐ 为经典4p3v问题提供了首个真正实用的解决方案
相关论文¶
- [CVPR 2025] Scene-Agnostic Pose Regression for Visual Localization
- [ACL 2025] Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories
- [ACL 2025] Language Model Probabilities are Not Calibrated in Numeric Contexts
- [CVPR 2026] SparseCam4D: Spatio-Temporally Consistent 4D Reconstruction from Sparse Cameras
- [NeurIPS 2025] Belief-Calibrated Multi-Agent Consensus Seeking for Complex NLP Tasks