Single-Scanline Relative Pose Estimation for Rolling Shutter Cameras¶

会议: ICCV 2025
arXiv: 2506.22069
代码: 即将公开
领域: 3D视觉
关键词: 卷帘快门、相对位姿估计、最小求解器、运动裂缝、结构光场运动

一句话总结¶

本文提出了一种不需要显式建模相机运动的卷帘快门相对位姿估计方法，仅利用每张图像一条扫描线与直线投影的交点信息来恢复位姿，并为平行线和已知重力方向等特殊场景开发了多种最小求解器。

研究背景与动机¶

领域现状：相对位姿估计是计算机视觉中的基础问题，广泛应用于 SfM、SLAM、多视图立体和视觉里程计。大多数方法假设全局快门（GS）相机模型，即所有像素同时曝光。然而，消费级设备（手机、运动相机）普遍使用卷帘快门（RS），逐行扫描成像——如果相机在曝光期间运动，RS 效应会导致图像畸变。

现有痛点：现有处理 RS 的方法几乎都依赖参数化运动模型（如 SLERP、Cayley 变换、线性化旋转、仿射运动等）来描述相机在扫描期间的运动轨迹。这些方法的问题是：（1）运动模型假设可能与真实轨迹不符，导致误差；（2）模型选择需要先验知识；（3）复杂运动模型增加了求解难度。

核心矛盾：要准确估计 RS 相机的相对位姿，似乎必须知道相机在扫描每行时的运动状态——但运动模型本身就是一个强假设，可能导致偏差。

本文目标：能否完全不依赖运动模型，独立估计每条扫描线的位姿？如果可以，这将为 RS SfM 提供一个模型无关的初始化方案。

切入角度：利用 3D 直线在 RS 图像上的投影特性——选择每张图像中的一条扫描线，通过检测直线投影与该扫描线的交点，可以建立不依赖运动模型的位姿约束方程。

核心 idea：将 RS 相对位姿估计问题转化为"从每张图像的单条扫描线与直线投影的交点中恢复相机位姿"的几何问题，通过建立新的代数约束并开发最小求解器来求解。

方法详解¶

整体框架¶

给定 \(n\) 个 RS 相机拍摄的场景中 \(m\) 条 3D 直线，从每张图像中选择一条扫描线 \(y_i\)，检测直线投影与扫描线的交点 \(\mathbf{p}_{i,j}\)。目标是仅从这些交点信息恢复每条扫描线处的相机位姿 \((\mathbf{R}_i(y_i), \mathbf{C}_i(y_i))\)。核心约束源自几何关系：从交点 \(\mathbf{p}_{i,j}\) 反投影的射线必须与对应的 3D 直线 \(\mathbf{L}_j\) 相交，由此得到标量三重积为零的约束方程。

关键设计¶

单扫描线几何约束:
- 功能：建立不依赖运动模型的位姿约束
- 核心思路：3D 直线 \(\mathbf{L}_j\) 由点 \(\mathbf{L}_{0,j}\) 和方向 \(\mathbf{L}_{d,j}\) 参数化。扫描线 \(y_i\) 处的相机位姿为 \((\mathbf{R}_i(y_i), \mathbf{C}_i(y_i))\)。交点的反投影射线与 3D 直线相交等价于三个向量线性相关，即 \(\mathbf{p}_{i,j}^T \mathbf{R}_i(y_i) [\mathbf{L}_{d,j}]_\times (\mathbf{L}_{0,j} - \mathbf{C}_i(y_i)) = 0\)。每个交点提供一个约束，完全不涉及相机运动函数
- 设计动机：传统 RS 方法需要在约束中编码运动模型，本方法通过只使用单扫描线处的"瞬时"位姿，将连续运动问题离散化为孤立位姿问题
平行线场景下的问题简化与最小求解器:
- 功能：利用平行线先验大幅降低问题复杂度
- 核心思路：当所有 3D 直线平行（如建筑场景中的垂直线），共享方向 \(\mathbf{L}_d = \mathbf{e}_2\)，每条线只有 2 个自由度。此时约束方程可简化为 \(\mathbf{u}_{i,j}^T \mathbf{A}_i \mathbf{L}_{h,j} = 0\) 的形式，其中 \(\mathbf{A}_i \in \mathbb{R}^{2 \times 3}\) 编码位姿。这等价于 \(n\) 个无标定 1D 相机的 2D 结构恢复问题。对于 3 相机 7 线（B,3,7）问题，可通过三焦张量线性求解，平均耗时仅 6.92μs
- 设计动机：通用场景的最小问题度数过高（>40k），不适合 RANSAC。平行线假设在城市/建筑场景中自然满足，且将度数降至 2，可实现线性或低次多项式求解
重力先验下的最小求解器:
- 功能：利用已知垂直方向进一步简化问题并消除投影歧义
- 核心思路：已知重力方向（即图像中垂直线的消失点）时，相机旋转只剩 1 个自由度（绕垂直轴旋转）。对于垂直线 + 重力先验场景，问题等价于标定 1D 相机的 2D 结构恢复。开发了 (E,3,5) 和 (E,4,4) 两种求解器（度数分别为 16 和 32），以及 (D,3,7) 的平行线 + 重力求解器（需 homotopy continuation，度数 48）
- 设计动机：重力方向在许多场景中可以通过 IMU 或场景先验获取（甚至简单地假设 \([0,1,0]^T\)），代价很小但显著降低了问题复杂度和歧义

损失函数 / 训练策略¶

本文是纯几何方法，不涉及学习。求解器使用代数方法（SVD、Gröbner 基、homotopy continuation）直接求解最小问题。在 RANSAC 框架中使用重投影误差选择内点和最佳模型。

实验关键数据¶

合成实验：数值稳定性¶

在 10^5 个无噪声合成场景上测试求解器精度：

求解器	旋转误差中位数	平移误差中位数	运行时间
(B,3,7) 平行线	~10^-11 rad	~10^-11 rad	6.92 μs
(E,3,5) 垂直线+重力	~10^-12 rad	~10^-12 rad	9.16 μs
(E,4,4) 垂直线+重力	~10^-11 rad	~10^-10 rad	70.84 μs
(D,3,7) 平行线+重力	~10^-8 rad	~10^-8 rad	19089 μs

Fastec 数据集实际实验¶

设置	求解器	序列中≥1帧<5°	≥1帧<10°	≥1帧<20°	≥1帧<30°
多视图	(E,3,5)	1/19	3/19	10/19	15/19
多视图	(E,4,4)	5/19	8/19	11/19	14/19
多视图	(D,3,7)	6/19	10/19	15/19	17/19
单视图	(E,3,5)	3/19	3/19	5/19	10/19
单视图	(E,4,4)	2/19	4/19	7/19	13/19
单视图	(D,3,7)	4/19	4/19	7/19	9/19

关键发现¶

(D,3,7) 求解器在多视图场景表现最佳：17/19 的序列至少有一帧误差低于 30°，足以初始化 SfM
单条扫描线信息有限：单帧的绝对精度不高，但在 SfM 初始化场景中只需找到一个合理的初始位姿即可
单视图模式（从同一张 RS 图像中选多条扫描线）也是可行的，但精度略低于多视图模式
(B,3,7) 只能恢复投影重建（无法解投影歧义），需要额外约束
对超大 RS 畸变（自定义数据集），本方法的 30.6% 相对位姿误差 <10°，远优于五点法的 10.7%

亮点与洞察¶

运动模型无关的范式突破：这是第一个完全不需要假设相机运动模型的 RS 相对位姿方法。对于运动复杂的场景（如手持设备快速转动），这种方法理论上比依赖特定运动模型的方法更鲁棒
1D 相机与 RS 相机的理论连接：将 RS 扫描线问题与 1D 相机位姿估计问题建立等价关系，这一理论洞察不仅简化了求解，还打通了两个研究领域
作为 SfM building block 的定位：不追求单帧高精度，而是定位为 SfM 的初始化模块，这个定位非常务实

局限与展望¶

RS 畸变导致直线投影变为曲线，本方法假设能检测到线段并取其与扫描线的交点，需要可靠的线检测和匹配
求解器仅适用于特殊场景配置（平行线、垂直线 + 重力），通用场景的最小问题度数过高（>40k）目前不可解
位姿只能恢复到沿线方向的平移歧义内，需要额外约束解歧义
单帧精度有限，需要依赖 RANSAC + 后续优化
未来方向：开发曲线检测器和匹配器、整合到完整的 RS SfM pipeline、结合运动先验提高精度

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出无运动模型的 RS 相对位姿估计，理论贡献突出
实验充分度: ⭐⭐⭐⭐ 合成 + 真实数据实验充分，多种求解器对比完整
写作质量: ⭐⭐⭐⭐ 数学推导严谨，问题分类清晰
价值: ⭐⭐⭐⭐ 为 RS SfM 提供了重要的理论基础和实用工具