IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera¶

会议: CVPR 2025
arXiv: 2410.08107
代码: https://github.com/WU-CVGL/IncEventGS (有)
领域: 3D视觉
关键词: 事件相机, 3D高斯溅射, 增量重建, 视觉里程计, SLAM

一句话总结¶

本文提出 IncEventGS，首个仅用单目事件相机、无需已知位姿即可增量重建 3D 高斯溅射场景的方法，采用跟踪-建图 SLAM 范式联合优化相机运动和场景表示，在新视角合成和位姿估计上均超越现有方法。

研究背景与动机¶

领域现状：3D 高斯溅射（3DGS）和 NeRF 在新视角合成方面取得巨大进展，通常使用 RGB 或 RGB-D 相机+COLMAP 提供初始位姿和点云。事件相机（event camera）作为仿生传感器，具有高时间分辨率、高动态范围、低延迟和低功耗等优势，在快速运动和低光照条件下表现远优于帧相机。

现有痛点：（1）现有事件相机 NeRF 方法（E-NeRF、EventNeRF、Robust e-NeRF）均需要 ground-truth 位姿，严重限制了实际应用；位姿通常由配对的 RGB 图像通过 COLMAP 计算或由动作捕捉系统提供。（2）事件数据异步稀疏，无法直接用于传统 3D 重建算法。（3）现有事件 SLAM 方法通常只恢复稀疏深度图（2.5D）而非稠密 3D 场景。（4）二阶段方法（E2VID 转图像 → COLMAP 估位姿 → 3DGS）在事件数据转换和位姿估计中都会引入较大误差。

核心矛盾：事件相机数据的异步性与 3DGS 要求的同步亮度图和精确位姿之间存在鸿沟。同时，纯事件流缺少绝对亮度信息，使得初始化和位姿估计更加困难。

本文目标 如何仅从单目事件相机的事件流出发，无需任何先验位姿，增量式地同时恢复 3D 高斯场景表示和相机运动轨迹？

切入角度：借鉴传统 SLAM 的跟踪-建图范式，但将底层场景表示换成 3DGS。关键观察是事件流可以通过亮度变化模型与 3DGS 渲染的亮度图建立可微分联系，从而支持同时优化位姿和场景。针对缺乏初始位姿和点云的问题，设计了基于单目深度估计的引导初始化。

核心 idea：将事件相机 SLAM 的跟踪-建图范式与 3D 高斯溅射结合，通过事件亮度变化模型建立可微分损失进行联合 bundle adjustment。

方法详解¶

整体框架¶

IncEventGS 将事件流按固定时间窗口分成 chunk，每个 chunk 关联一个连续时间轨迹参数化（在 \(\mathfrak{se}(3)\) 空间线性插值）。系统交替执行两阶段：（1）跟踪：固定 3DGS，仅优化最新 chunk 的相机轨迹参数；（2）建图：使用滑动窗口 bundle adjustment，联合优化最近 \(n_w=20\) 个 chunk 的 3DGS 参数和轨迹参数。随着相机移动，在新探索区域增量添加高斯点。

关键设计¶

事件-3DGS 可微分联系:
- 功能：建立事件流与 3DGS 渲染之间的可微分损失
- 核心思路：在每个 chunk 内随机采样两个接近的时间戳 \(t_k\) 和 \(t_{k+\Delta t}\)，从轨迹参数化插值得到对应位姿 \(T_k\) 和 \(T_{k+\Delta t}\)，从 3DGS 渲染两张亮度图 \(\hat{I}_k\) 和 \(\hat{I}_{k+\Delta t}\)。合成亮度变化为 \(\hat{E}(\mathbf{x}) = \log(\hat{I}_{k+\Delta t}) - \log(\hat{I}_k)\)，实测亮度变化 \(E(\mathbf{x})\) 从对应时间段的事件流累积。最小化 \(\|E - \hat{E}\|_2\) 作为核心损失。
- 设计动机：事件相机记录的是亮度变化而非绝对亮度，对数差分模型天然对应事件触发机制。两个时间戳的亮度图渲染使 3DGS 参数和位姿同时可微，支持联合优化。
增量跟踪与建图:
- 功能：实现无需先验位姿的增量式 3D 重建
- 核心思路：跟踪阶段仅优化最新 chunk 的 \(T_{start}\) 和 \(T_{end}\)，利用已重建的 3DGS 场景作为参考，最小化事件损失。建图阶段使用滑动窗口（\(n_w=20\)）进行 bundle adjustment，联合优化窗口内所有 chunk 的轨迹和 3DGS 参数。同时在新探索区域添加高斯点：用已有 3DGS 渲染深度图，反投影到 3D 空间作为新点的位置，用可见性掩码 \(V < \lambda_V\) 控制仅在未覆盖区域添加。
- 设计动机：tracking-mapping 范式久经考验（如 ORB-SLAM），但需要适配 3DGS 和事件数据。滑动窗口 BA 平衡了全局一致性和计算效率。增量添加点+透明高斯剪枝保证场景逐步扩展。
深度引导初始化:
- 功能：解决纯事件流下 3DGS 初始化困难的问题
- 核心思路：用前 \(m=3\) 个 chunk 训练初始 3DGS 和位姿（位姿初始化为近单位矩阵，点云在包围盒内随机采样）。训练一定迭代后，用单目深度估计网络从渲染的亮度图预测稠密深度图，将像素深度反投影得到新的高斯中心位置重初始化，然后重新训练。
- 设计动机：消融实验表明深度初始化使 ATE 从 1.534cm 骤降到 0.046cm——短基线事件数据的初始 3D 结构质量极差，深度估计网络提供了从 2D 到 3D 的关键先验。没有好的初始结构，后续增量扩展会偏离。

损失函数 / 训练策略¶

跟踪阶段仅用事件 L2 损失（Eq.10）。建图阶段用事件 L2 损失 + SSIM 结构相似性损失的组合（\(\mathcal{L} = (1-\lambda)\mathcal{L}_{event} + \lambda\mathcal{L}_{ssim}\)，\(\lambda=0.05\)）。每个 chunk 时间窗口 50ms。初始化 4500 步，跟踪 200 步，建图 1500 步。事件流按事件数等分为 \(n_{seg}=100\) 段进行时间戳采样，采样窗口大小 \(n_{low}=400k\), \(n_{up}=500k\)（合成数据集）。

实验关键数据¶

主实验¶

场景 (Replica)	指标	IncEventGS (无位姿)	Robust e-NeRF (GT位姿)	E2VID+COLMAP+3DGS
room0	PSNR↑	24.31	17.26	14.45
room2	PSNR↑	23.75	16.43	15.74
office0	PSNR↑	25.64	18.93	18.91
office2	PSNR↑	21.74	16.81	14.03
office3	PSNR↑	21.18	19.22	13.25

即使不使用 GT 位姿，IncEventGS 仍大幅超越使用 GT 位姿的 NeRF 方法（平均 +5-7 dB PSNR）。

数据集	方法	ATE (cm)↓
Replica room0	DEVO	0.289
Replica room0	IncEventGS	0.046
TUM-VIE desk	DEVO	0.732
TUM-VIE desk	IncEventGS	0.231
TUM-VIE 6dof	DEVO	2.93
TUM-VIE 6dof	IncEventGS	0.251

位姿估计精度全面超越 SOTA 事件视觉里程计 DEVO。

消融实验¶

配置	PSNR↑	SSIM↑	LPIPS↓	ATE (cm)↓	说明
Full model	21.74	0.82	0.23	0.046	完整模型
w/o 深度初始化	17.80	0.76	0.26	1.534	ATE 暴增 33 倍

事件窗口 (\(n_{low}\)-\(n_{up}\))	PSNR↑	ATE↓	说明
1k-10k	16.07	0.167	窗口太小缺信息
400k-500k	21.74	0.046	最优配置
600k-700k	18.06	0.214	窗口太大内存增且运动过大

关键发现¶

深度初始化是系统成功的决定性因素——去掉后 PSNR 下降 4 dB、ATE 暴增 33 倍，说明短基线事件数据的 3D 重建极度依赖好的初始化
事件窗口大小需要精心选择（400k-500k 最优），太小缺乏信息、太大运动过大匹配困难
即使不用 GT 位姿，3DGS 表示+事件 BA 的组合仍远优于用 GT 位姿的 NeRF 方法，体现了 3DGS 表示的优越性
在 TUM-VIE 真实数据集上，IncEventGS 的位姿估计甚至优于立体事件相机方法 ESVO2，说明单目+3DGS BA 的强大

亮点与洞察¶

首个纯事件无位姿 3DGS 重建：填补了重要的研究空白。之前的事件 NeRF 方法都依赖 GT 位姿，实际应用中获取位姿本身就需要帧相机
3DGS 表示的优势在事件重建中被放大：对比 NeRF 方法提升 5-7 dB，说明 3DGS 的显式表示+可微分渲染在弱监督信号（事件流仅提供亮度变化）下更容易优化
深度估计网络作为初始化先验的使用很巧妙：不需要深度网络持续参与，仅在 bootstrap 阶段用一次就能显著改善后续所有优化

局限与展望¶

合成数据上表现远好于真实数据，真实事件相机的噪声和对比度阈值估计误差影响较大
滑动窗口 BA 仅考虑局部一致性，长轨迹可能存在累积漂移（未报告回环检测）
事件流缺乏绝对亮度信息，NVS 指标使用了线性颜色校正，说明恢复的绝对亮度可能有偏差
初始化依赖单目深度估计网络的质量，在该网络泛化性差的场景中可能失效
未与同期并行工作 EvGGS、Event3DGS 在完全相同设置下对比（这些方法使用 GT 位姿）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个无位姿事件相机 3DGS 重建，问题设定有重要实际意义
实验充分度: ⭐⭐⭐⭐ 合成+真实数据集评估、NVS+位姿双指标、消融研究充分，但缺少与同期工作的直接对比
写作质量: ⭐⭐⭐⭐ Pipeline 图清晰，方法描述系统完整
价值: ⭐⭐⭐⭐⭐ 对事件相机 3D 重建领域有重要推进，去除位姿依赖大幅提升实际应用可能性