RePoseD: Efficient Relative Pose Estimation with Known Depth Information¶

会议: ICCV 2025
arXiv: 2501.07742
代码: 即将公开
领域: 3D视觉
关键词: 相对位姿估计, 单目深度估计, 最小求解器, RANSAC, 多视图几何

一句话总结¶

本文提出了一组高效的相对位姿最小求解器，将单目深度估计（MDE）的尺度和仿射参数与相对位姿联合估计，在标定/共焦距/不同焦距三种配置下均超越SOTA深度感知求解器，并通过大规模实验回答了"MDE深度是否有助于相对位姿估计"这一核心问题。

研究背景与动机¶

相对位姿估计是SfM、视觉定位和自主导航等核心任务的基础。传统方法基于2D-2D点对应关系，使用极线几何约束来估计两相机之间的相对位姿——标定情况下需要5个点对应，共焦距需要6个，不同焦距需要7-8个。在RANSAC框架中，所需点对应数直接决定了迭代次数，因此减少所需对应点数是关键优化方向。

近年来，MDE方法（如Depth Anything v2、MoGe、UniDepth）取得了精度上的飞跃，为利用深度信息辅助位姿估计提供了新契机。然而，现有深度感知求解器面临三个核心挑战：

深度噪声大：学习预测的深度远比图像测量噪声更大

尺度/仿射不变性：MDE产生的深度通常只定义到未知尺度因子，甚至是未知的尺度+偏移参数

参数不一致性：不同图像的尺度/偏移参数可能不同，甚至图像内部不同区域的尺度也可能不同

此前的工作（如Rel3PT、Madpose）要么只利用相对深度信息未充分发挥深度图的价值，要么不建模未知偏移，要么求解器效率不高。因此本文的核心idea是：充分利用两个深度图的完整信息（而非仅相对深度），联合估计相对位姿与深度的尺度/仿射参数，设计更小更快的求解器。

方法详解¶

整体框架¶

给定一对图像的2D点对应及其单目深度估计，本文建立统一的参数化公式，将真实深度表示为估计深度的仿射变换：\(\eta_i = s_1(\alpha_i + u)\)，\(\lambda_i = s_2(\beta_i + v)\)，其中 \(s_1, s_2\) 为尺度参数，\(u, v\) 为偏移参数。将其代入投影方程后，得到以相对尺度 \(s = s_2/s_1\)、偏移 \(u, v\)、旋转 \(\mathbf{R}\) 和平移 \(\mathbf{t}\) 为未知数的统一约束方程。

关键设计¶

3PTsuv 求解器（标定情况）：
- 功能：使用3个3D-3D点对应估计9-DOF问题（\(s, u, v, \mathbf{R}, \mathbf{t}\)）
- 核心思路：通过成对相减消去平移，再利用旋转保持向量长度的性质消去旋转，得到仅含 \(s^2, u, v\) 的3个方程。令 \(c = s^2\) 降次后，通过Gauss-Jordan消元得到关于 \(u\) 的四次方程，可用封闭解求解
- 设计动机：相比Madpose的 \(12\times16\) 矩阵GJ消元 + \(4\times4\) 特征值分解，本文仅需 \(3\times6\) GJ消元 + 封闭解，速度提升 ~3x（1.46μs vs 4.45μs）
4PTfsuv 求解器（共焦距情况）：
- 功能：使用4个带深度的点对应，联合估计 \(s, u, v, f\)（10-DOF问题）
- 核心思路：利用4个3D-3D点对应构建6个方程4个未知数的过约束系统，选取4个方程用Gröbner基方法求解
- 设计动机：GJ消元矩阵为 \(24\times32\)（vs Madpose的 \(36\times44\)），速度快约2倍（12.5μs vs 23.6μs）
4PTf1,2suv 求解器（不同焦距情况）：
- 功能：使用4个3D-3D点对应估计 \(s, u, v, f_1, f_2\)（11-DOF问题）
- 核心思路：对6个方程5个未知数的过约束系统，取5个方程求解。通过令 \(cf_2 = \tilde{f}_2\) 简化多项式，得到 \(20\times24\) GJ消元 + 最多4个解
- 设计动机：矩阵尺寸仅为Madpose（\(40\times44\)）的约一半，速度提升 ~3x（6.45μs vs 20.2μs）
尺度不变性 (zero-shift) 求解器：
- 功能：当深度偏移为零时（如对某些MDE方法），使用更简单的P3P求解器或新的3PTfs00求解器
- 核心思路：不建模偏移参数，降低问题自由度
- 设计动机：实验发现对MoGe、UniDepth等网络，不建模偏移反而更好，与Madpose论文的结论相反

损失函数 / RANSAC策略¶

本文在LO-RANSAC框架（PoseLib）中使用Sampson误差进行评分和局部优化，阈值设为2像素，固定1000次迭代。还与Madpose的Hybrid RANSAC方案进行对比，后者同时使用Sampson误差和重投影误差（阈值分别为2px和16px），但计算成本显著增加。关键发现：即使对3D点，也建议构造本质/基础矩阵并度量Sampson误差，因为这通常比直接用重投影误差效果更好。

实验关键数据¶

主实验¶

数据集/深度	求解器	中位误差ε(°)↓	mAA↑	运行时间(ms)↓
ETH3D/MoGe/SP+LG	5PT	0.91	87.67	48.14
ETH3D/MoGe/SP+LG	P3P	0.91	87.67	25.72
ETH3D/MoGe/SP+LG	3PTsuv(M)	0.89	87.71	33.45
ETH3D/MoGe/SP+LG	3PTsuv(ours)	0.89	87.67	22.41
ETH3D/MoGe/SP+LG	3PTsuv(ours)+H	0.85	88.24	554.79
ETH3D/Real/SP+LG	3PTsuv(ours)+H	0.52	91.42	543.48
ETH3D/UniDepth/RoMA	3PTsuv(ours)	0.55	91.01	83.72

消融实验¶

配置	关键指标	说明
建模偏移(suv) vs 不建模(s00)	MoGe: s00更优	好的MDE不需要建模偏移
Sampson vs 重投影误差	Sampson通常更优	深度噪声大时Sampson更鲁棒
PoseLib vs Hybrid RANSAC	Hybrid更准但慢10-30x	精度-速度权衡
不同MDE网络对比	MoGe/UniDepth最佳	优于MiDas/DA v2
SP+LG vs RoMA vs Mast3r	RoMA整体最优	稠密匹配提供更好的对应

关键发现¶

当有好的深度估计（MoGe/UniDepth）时，深度感知求解器显著优于5PT
对metric depth（UniDepth），不建模偏移（zero-shift）的P3P和3PTfs00反而更优
对scale/affine-invariant depth（MiDas/DA v2），建模偏移有助于提升精度
Mast3r尽管使用昂贵的非线性优化，当有好的深度或匹配时反而不如RANSAC方案

亮点与洞察¶

统一框架分析6种深度参数组合：系统化地讨论了已知/未知/相同尺度和偏移的所有情况，给出了可行求解器的完整目录
更小更快的求解器：通过代数化简，求解器矩阵尺寸显著减小（最大约为Madpose的一半），实际速度快2-3倍
挑战已有结论：通过测试Madpose未覆盖的zero-shift求解器，证明"建模偏移总是有益"的结论并不成立
全面的实验覆盖：5种MDE × 3种匹配器 × 3种数据集 × 2种RANSAC框架，给出了实际使用建议

局限与展望¶

假设深度的尺度在图像内一致，但实际上某些MDE在图像不同区域可能存在不同的尺度
Hybrid RANSAC显著增加了计算成本（10-30x），需要更高效的实现
仅针对两视图情况，未扩展到多视图联合优化
可以将P3P求解器纳入Hybrid RANSAC方案，可能获得更大提升

评分¶

新颖性: ⭐⭐⭐⭐ 求解器推导技术扎实，但核心思路（联合估计pose和depth参数）在并发工作中已有
实验充分度: ⭐⭐⭐⭐⭐ 覆盖极广，5种MDE×3种匹配器×3种数据集×2种RANSAC，实验设计堪称标杆
写作质量: ⭐⭐⭐⭐ 逻辑清晰，数学推导详尽
价值: ⭐⭐⭐⭐ 对"MDE深度是否有助于位姿估计"给出了实用指南，有实际工程价值