Event-based Mosaicing Bundle Adjustment¶

会议: ECCV 2024
arXiv: 2409.07365
代码: 有
领域: 事件相机 / 计算机视觉
关键词: 事件相机, Bundle Adjustment, 全景拼接, 稀疏优化, 梯度图重建

一句话总结¶

提出 EMBA，首个针对纯旋转事件相机的光度 Bundle Adjustment 方法，利用线性化事件生成模型将问题形式化为正则化非线性最小二乘优化，并利用法方程矩阵的块对角稀疏结构设计高效求解器，同时优化相机旋转轨迹和全景梯度图。

研究背景与动机¶

事件相机是一种新型仿生视觉传感器，以异步方式逐像素检测亮度变化。相比帧式相机，事件相机在高动态范围 (HDR)、低功耗和快速运动场景中具有独特优势。Bundle Adjustment (BA) 是同时优化相机运动和场景地图的核心问题，在全景拼接、视觉里程计、SLAM 等领域至关重要。

现有方法的局限性：

缺乏后端优化：现有事件相机旋转估计方法 (PF-SMT, RTPT, CMax-\(\omega\), CMax-GAE) 均为前端短期估计，缺少 BA 后端来提升精度和一致性

仅有间接方法：已有的事件 BA (如 Chin et al., 2019) 基于特征匹配的间接方式，丢弃了大量事件包含的信息，且量化了高时间分辨率

地图质量不佳：CMax-SLAM 虽有后端，但地图仅是边缘图 (IWE)，无法恢复灰度强度全景图

直接光度 BA 空白：纯事件驱动的直接 (光度) BA 在文献中尚属空白

核心动机：利用事件的自然特性——每个事件是一个相对亮度测量值——设计直接光度 BA，同时优化相机旋转和强度全景图，填补该领域空白。

方法详解¶

整体框架¶

EMBA 的流程：(1) 用前端方法获取初始相机旋转和梯度图；(2) 基于线性化事件生成模型 (LEGM) 构建光度误差目标函数；(3) 利用块对角稀疏结构的 Levenberg-Marquardt 求解器迭代优化；(4) 通过 Poisson 方程从优化后的梯度图恢复灰度全景图。

关键设计¶

线性化事件生成模型 (LEGM) 与目标函数：将事件与场景梯度的关联建模为核心约束
- 事件相机在像素处亮度变化达到阈值 \(C\) 时触发事件：\(\Delta L = s_k C\)
- 在亮度恒定假设下线性化：\(\Delta L \approx \nabla M(\mathbf{p}(t_k)) \cdot \Delta \mathbf{p}(t_k) = s_k C\)
- 其中 \(\nabla M\) 是全景梯度图，\(\Delta \mathbf{p}\) 是由相机旋转引起的地图位移
- 目标函数为光度误差的平方和：\(\min_{\mathbf{P}} g(\mathbf{P}) = \sum_{k=1}^{N_e} (\hat{\Delta L}_k(\mathbf{P}) - \Delta L_k)^2\)
- 设计动机：LEGM 自然建立了每个事件与一个地图点梯度的一对一关联，避免了显式数据关联。选择线性化模型虽引入近似误差，但带来了关键的块对角稀疏结构
参数化与块对角稀疏结构：实现高效求解器的关键
- 待优化参数 \(\mathbf{P}\) 分为两部分：相机控制姿态 \(\boldsymbol{\alpha} \in \mathbb{R}^{3N_{\text{poses}}}\) 和全景梯度图像素 \(\boldsymbol{\beta} \in \mathbb{R}^{2N_p}\)
- 相机轨迹用线性插值样条参数化，使用 Lie Group 的 LM 方法更新旋转
- 法方程自然分块为：\(\begin{pmatrix} A_{11} & A_{12} \\ A_{12}^\top & A_{22} \end{pmatrix} \begin{pmatrix} \Delta P_\alpha^* \\ \Delta P_\beta^* \end{pmatrix} = \begin{pmatrix} b_1 \\ b_2 \end{pmatrix}\)
- 关键发现：因为每个误差项 \((e)_k\) 仅依赖一个地图点的梯度，\(A_{22}\) 具有 \(2 \times 2\) 的块对角结构，求逆复杂度仅为 \(O(N_p)\)，可用 Schur complement 高效求解
- 设计动机：直接存储和操作 Jacobian 矩阵 \(J \in \mathbb{R}^{N_e \times (3N_\text{poses} + 2N_p)}\) 对百万级事件数据不可行，利用稀疏结构是实现实际可用系统的关键
地图正则化：防止优化发散
- 加入 \(L^2\) 正则项：\(\min_{\{R_i\}, \nabla M} \|e(\{R_i\}, \nabla M)\|^2 + \eta \|\nabla M\|^2\)
- 正则化仅在 \(A_{22}\) 的对角线上加 \(\eta I\)，不破坏块对角结构
- 区分"有效像素"（接收 >5 个事件）和"无效像素"，无效像素仅通过正则化设梯度为零
- 设计动机：单纯的光度误差优化中，某些像素的梯度值可能快速增长抑制其他像素更新，正则化确保稳定收敛

损失函数 / 训练策略¶

目标函数：正则化非线性最小二乘 \(\|e\|^2 + \eta \|\nabla M\|^2\)
求解器：Levenberg-Marquardt 方法 + Schur complement
全景图恢复：通过 Poisson 方程从优化后梯度图 \(\nabla M\) 恢复强度图 \(M\)
控制姿态频率默认 20 Hz，地图大小 \(1024 \times 512\) px

实验关键数据¶

主实验¶

合成数据上的光度误差 (\(\times 10^6\))，使用 CMax-\(\omega\) 初始化：

场景	优化前	优化后 (EMBA)	相对降低
playroom	0.326	0.151	54.5%
bicycle	0.552	0.295	46.6%
city	2.714	1.978	27.1%
street	1.895	1.336	29.5%
town	1.917	1.425	25.7%
bay	2.303	1.827	20.7%

合成数据旋转误差 RMSE (°)，CMax-\(\omega\) 初始化：

场景	优化前	优化后	说明
city	1.532	0.973	降低 36.5%
town	1.905	0.858	降低 55.0%
street	0.965	0.744	降低 22.9%

真实数据上光度误差 (\(\times 10^5\))，CMax-\(\omega\) 初始化：

序列	优化前	优化后	降低幅度
shapes	0.575	0.361	37.2%
poster	4.368	2.579	40.9%
boxes	3.921	2.250	42.6%
dynamic	3.049	2.130	30.1%

消融实验¶

运行时间分析 (秒)，真实数据：

步骤	shapes	poster	boxes	dynamic
目标函数评估	1.114	8.873	7.436	5.837
构建法方程	0.300	2.366	2.106	1.574
Schur 求解	0.429	2.013	2.006	1.656
CG 求解 (对比)	0.267	3.127	3.561	2.056
有效像素数	6,913	50,738	49,357	41,313
事件数	1.78M	12.59M	10.76M	8.80M

与 CMax-SLAM 后端联合使用：初始化 EMBA 后，旋转 RMSE 从 0.470° 进一步降至 0.377°，说明两者互补。

关键发现¶

EMBA 对所有四种前端方法 (EKF-SMT, CMax-GAE, CMax-\(\omega\), RTPT) 的初始化均能提升结果
光度误差降低 30%–54.5%，地图质量从视觉上有极为显著的改善：模糊区域变清晰，隐藏的细节被揭示
Schur complement 求解器在大规模场景下比共轭梯度 (CG) 求解器更快
即使不提供初始地图，EMBA 也可以从零恢复高质量全景图 (VGA/HD 事件相机实验)

亮点与洞察¶

首个纯事件驱动的直接 (光度) Bundle Adjustment 方法，填补重要空白
理论贡献清晰：将 LEGM 的结构性质转化为 \(A_{22}\) 的块对角稀疏性，设计出复杂度为 \(O(N_p)\) 的高效求解器
从梯度图到全景图的恢复路径 (Poisson 方程) 简洁优雅
在 VGA 和 HD (128 万像素) 事件相机上产生了令人印象深刻的户外全景图

局限与展望¶

假设纯旋转运动和静态场景，含平移运动的真实手持序列评估存在困难
高纹理场景产生大量事件会减慢算法速度
LM 方法的局部收敛性意味着初始化质量至关重要
线性化 (LEGM) 引入近似误差，可探索非线性事件生成模型
可扩展到 6-DOF BA 和动态场景处理

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首个事件直接光度 BA，理论贡献扎实
实验充分度: ⭐⭐⭐⭐ — 合成+真实数据 + 多种前端 + 运行时间分析，但真实数据评估受限于纯旋转假设
写作质量: ⭐⭐⭐⭐⭐ — 数学推导严谨清晰，结构紧凑
价值: ⭐⭐⭐⭐ — 为事件相机 SLAM 后端优化奠定基础