E2EGS: Event-to-Edge Gaussian Splatting for Pose-Free 3D Reconstruction¶
会议: CVPR 2026
arXiv: 2603.14684
代码: 待确认
领域: 3D视觉
关键词: 事件相机, 3D高斯溅射, 边缘检测, 无位姿重建, 视觉里程计
一句话总结¶
提出 E2EGS,一个完全基于事件流的无位姿 3D 重建框架:通过 patch-based 时间一致性分析从事件流中提取抗噪边缘图,利用边缘信息指导高斯初始化和加权损失优化,在无需深度模型或 RGB 输入的情况下实现了高质量的轨迹估计和 3D 重建。
研究背景与动机¶
NeRF 和 3D Gaussian Splatting (3DGS) 推动了新视角合成的巨大进步,但它们本质上依赖高质量 RGB 图像和精确相机位姿。在快速运动或光照恶劣的真实场景中,RGB 图像质量退化严重,限制了这些方法的鲁棒性。
事件相机的优势:事件相机以异步方式捕捉像素级亮度变化,具有极高的时间分辨率和宽动态范围,天然适合处理运动模糊和极端光照。更重要的是,事件相机在边缘和纹理边界处产生密集响应,为场景几何提供了丰富的结构信息。
现有方法的局限:
- 需要已知位姿的方法(EventSplat, Ev-GS, Event3DGS 等):依赖 SfM 或 GT 位姿,在位姿不可用的场景中无法使用
- IncEventGS(当前唯一的 pose-free 方法):采用 SLAM 框架联合优化位姿和 3D 高斯,但严重依赖预训练深度估计模型 Marigold 做初始化。核心问题:深度模型从初始帧估计,当相机移动到初始覆盖范围之外的新区域时,深度估计退化→轨迹漂移→重建质量崩溃
核心矛盾:pose-free event-based 3D 重建需要可靠的几何先验来引导优化,但现有方法要么依赖外部深度模型(泛化性差),要么完全随机初始化(优化容易陷入局部最优)。
本文切入角度:事件相机天然编码了边缘信息——相机运动时,边缘区域产生时间一致的密集事件,而非边缘区域只产生稀疏噪声。这种时空特征差异可以用来提取鲁棒的边缘图,为高斯初始化和位姿优化提供几何约束,完全不需要深度模型或 RGB 辅助。
核心 idea:用事件流中内蕴的边缘信息替代深度模型,实现完全自主的 pose-free event-based 3D 重建。
方法详解¶
整体框架¶
E2EGS 采用 3DGS 作为场景表示,沿用 IncEventGS 的 tracking-mapping 交替优化框架。输入是纯事件流,输出是 3D 高斯场景表示和相机轨迹。事件流被分成时间块处理,每块关联一段连续轨迹。事件监督通过最小化测量事件图 \(E_t(\mathbf{x})\) 与合成事件图 \(\hat{E}_t(\mathbf{x}) = \log \hat{I}_{t+\Delta t}(\mathbf{x}) - \log \hat{I}_t(\mathbf{x})\) 之间的差异来实现。
E2EGS 的核心创新是三层边缘引导管线:(1) 从连续事件图中提取鲁棒边缘 → (2) 沿边缘初始化 3D 高斯 → (3) 在 tracking 和 bundle adjustment 全程应用边缘加权损失。
关键设计¶
- Patch-based 时间一致性分析(边缘检测)
- 做什么:从噪声事件流中提取抗噪边缘图,无需任何训练
- 核心思路:给定 \(T\) 帧连续事件图 \(\{E_t\}_{t=1}^T\),将其划分为 \(p \times p\) 的重叠 patch。对每个 patch 位置 \(P_{x,y}\),计算相邻帧之间的时间差分信号 \(D_t(P_{x,y}) = |G_\sigma * E_t(P_{x,y}) - G_\sigma * E_{t-1}(P_{x,y})|\)(高斯窗口平滑处理尖锐变化)。然后取所有相邻帧对的方差最大值 \(C(P_{x,y}) = \max_{t} \text{Var}(D_t(P_{x,y}))\),方差高于阈值 \(\tau\) 的 patch 被判定为包含边缘
- 设计动机:相机运动时,边缘区域在连续帧间产生空间一致的结构化事件模式(高方差),而非边缘区域只产生稀疏随机噪声(低方差)。这种方差差异是天然的边缘/非边缘判别器。灵感来源于对比度最大化框架,但避免了其代价昂贵的轨迹估计步骤
-
自校正机制:时间差分同时捕捉前一帧 \(E_{t-1}\) 和当前帧 \(E_t\) 的边缘,深度估计错误的边缘会因与当前观测不一致而被自动移除
-
Edge-aware Gaussian 初始化
- 做什么:沿检测到的边缘放置 3D 高斯点,替代深度模型初始化
- 核心思路:从边缘图提取 2D 边缘点 \(\mathcal{P}\),用 KNN + PCA 获取每个点的边缘法线方向。通过递归网格细分(按法线方向一致性判断是否需要细分)生成 2D 边缘高斯集合 \(\mathcal{G}_\text{edge}\)。然后沿每个边缘高斯的视线方向用 inverse depth sampling 放置 3D 点:\(d = \frac{1}{\frac{1}{d_\max} + u(\frac{1}{d_\min} - \frac{1}{d_\max})}\),\(u \sim \mathcal{U}(0,1)\)
- 深度采样 vs 表面采样互补:引入边缘比率 \(r_\text{edge} \in [0,1]\) 控制边缘高斯和随机高斯的比例。\(N_\text{edge} = \lfloor r_\text{edge} \cdot N_\text{total} \rfloor\) 个高斯沿边缘初始化,其余 \(N_\text{random}\) 个随机放置以覆盖无纹理区域
-
设计动机:inverse depth sampling 在远处放更多采样点——远处点在相机旋转时产生更大的像素位移,更有利于旋转运动的可观测性,从而提升位姿估计精度。这比均匀深度采样更符合几何直觉
-
Edge-weighted 损失函数
- 做什么:在初始化、tracking、bundle adjustment 全程应用边缘加权重建损失
- 核心思路:边缘加权损失 \(\mathcal{L}_\text{edge} = \frac{1}{|\Omega|} \sum_{\mathbf{x} \in \Omega} w(\mathbf{x}) \cdot \|\hat{E}(\mathbf{x}) - E(\mathbf{x})\|^2\),其中权重 \(w(\mathbf{x}) = 1 + \beta \cdot M(\mathbf{x})\),\(\beta\) 控制边缘强调程度。总损失 \(\mathcal{L}_\text{total} = (1-\lambda) \mathcal{L}_\text{edge} + \lambda \mathcal{L}_\text{dssim}\)
- 设计动机:事件相机在非边缘区域产生稀疏噪声,如果用均匀像素级损失,这些噪声事件会等权地影响优化过程,产生不可靠的梯度信号。边缘加权使优化聚焦于几何显著的边界区域——那里的几何约束更鲁棒,即使存在事件噪声也不易退化
损失函数 / 训练策略¶
总损失结合边缘加权重建损失和结构相似性损失。整个系统在 tracking 和 mapping 阶段交替优化:tracking 阶段固定高斯参数优化新 chunk 的位姿;mapping 阶段在滑窗内联合优化高斯参数和轨迹。
实验关键数据¶
主实验(新视角合成 - Replica 数据集)¶
| 方法 | 深度依赖 | 位姿依赖 | room0 PSNR↑ | office0 PSNR↑ | office3 PSNR↑ |
|---|---|---|---|---|---|
| EvGGS | ✗ | 已知 | 17.57 | 14.34 | 15.51 |
| Event-3DGS* | ✗ | E2VID+COLMAP | 22.27 | 15.97 | 17.82 |
| IncEventGS | Marigold | ✗ | 23.54 | 26.53 | 19.21 |
| IncEventGS† | ✗ | ✗ | 19.81 | 27.72 | 20.04 |
| E2EGS | ✗ | ✗ | 23.86 | 28.01 | 20.75 |
主实验(轨迹精度 - ATE RMSE cm)¶
| 方法 | room0 | room2 | office0 | TUM-VIE 1d | TUM-VIE 3d | TUM-VIE 6dof |
|---|---|---|---|---|---|---|
| DEVO | 0.271 | 0.381 | 0.287 | 0.23 | 1.00 | 1.82 |
| IncEventGS | 0.051 | 0.071 | 0.085 | 2.19 | 1.62 | 0.70 |
| IncEventGS† | 6.817 | 0.446 | 0.698 | 2.58 | 4.48 | 8.24 |
| E2EGS | 0.049 | 0.065 | 0.078 | 1.12 | 0.65 | 0.58 |
关键对比:IncEventGS† 在 TUM-VIE desk2 上 ATE 高达 96.59cm(灾难性失败),E2EGS 仅 0.40cm。
消融实验¶
| 配置 | Edge loss | Edge init | Depth init | ATE (cm) |
|---|---|---|---|---|
| IncEventGS | ✗ | ✗ | ✓ | 0.37 |
| IncEventGS† | ✗ | ✗ | ✗ | 6.62 |
| w/ Edge loss only | ✓ | ✗ | ✗ | 0.50 |
| w/ Edge init only | ✗ | ✓ | ✗ | 0.29 |
| E2EGS (full) | ✓ | ✓ | ✗ | 0.28 |
Edge ratio \(r_\text{edge}\) 消融:\(r_\text{edge} = 0.0\) → ATE 5.68cm;\(r_\text{edge} \in [0.1, 0.3]\) → ATE ~0.40cm(最优);\(r_\text{edge} = 1.0\) → ATE 11.93cm(过度强调边缘导致表面覆盖不足)。
关键发现¶
- Edge init 贡献 > Edge loss:单独加 edge init 已将 ATE 从 6.62 降到 0.29,优于 depth-based 的 0.37;单独加 edge loss 降到 0.50。两者结合最优(0.28)
- 长序列鲁棒性:随序列长度增加,IncEventGS(依赖深度)的 ATE 急剧上升(深度越来越不可靠),E2EGS 保持稳定低误差(边缘是局部特征,不受序列长度影响)
- 无深度 vs 有深度:E2EGS 在不用任何深度模型的情况下,合成数据上超越 IncEventGS(有深度),真实数据上大幅超越
- 边缘比例需平衡:过低(0.0)缺几何约束导致漂移,过高(0.7-1.0)覆盖不足导致非边缘区域损失主导误优化
亮点与洞察¶
- Training-free 边缘检测设计巧妙:不用任何学习就从事件流的时空统计特性中提取边缘,利用的是事件相机最本质的物理特性(运动+边缘→一致事件),简洁且有效
- 完全摆脱深度模型是一个重要的范式转变:IncEventGS 的 depth model 在 unseen 区域退化是根本性缺陷,E2EGS 用边缘替代深度作为几何先验,不受观测范围限制
- Inverse depth sampling 的几何直觉值得借鉴:远处点对旋转更敏感→在远处多采样→提升旋转估计的可观测性。这个 insight 可迁移到其他需要深度初始化的 SLAM 系统
- 边缘加权损失本质上是一种注意力机制:让优化聚焦于信息量最丰富的像素,而非被噪声像素的梯度淹没
局限性 / 可改进方向¶
- 边缘提取策略偏保守(prioritize reliability over completeness),在弱几何结构区域(如大面积无纹理墙面)可能提取不到足够边缘
- 事件相机在无纹理平面区域天然产生稀疏响应,限制了这些区域的高斯质量(作者承认)
- 边缘比例 \(r_\text{edge}\) 需手动调参,自适应方案值得探索
- 仅在室内数据集上验证,户外大规模场景(如自动驾驶)的表现未知
- 没有与最新的学习式事件视觉里程计方法(如 RAMP-VO 融合事件+图像)做端到端对比
相关工作与启发¶
- vs IncEventGS:同为 pose-free event-based 3DGS,但 IncEventGS 依赖 Marigold 深度模型初始化,长序列/新区域退化严重;E2EGS 用边缘替代深度,根本上解决了泛化问题
- vs DEVO:DEVO 是学习式事件视觉里程计,轨迹精度好但不做 3D 重建;E2EGS 统一了轨迹估计和场景重建
- vs 对比度最大化(CMax-SLAM):CMax 通过最大化 warped 事件图的锐度估计运动,计算昂贵;E2EGS 直接从时间一致性提取边缘,更高效
- 启示:事件相机的物理特性本身蕴含了丰富的几何线索,不必依赖预训练视觉模型,回归传感器本质可能是更鲁棒的路径
评分¶
- 新颖性: ⭐⭐⭐⭐ 用边缘替代深度模型做 event-based 3DGS 的几何先验,idea 清晰有效
- 实验充分度: ⭐⭐⭐⭐ 合成+真实数据集、组件消融、参数消融完整,但缺乏户外大场景评估
- 写作质量: ⭐⭐⭐⭐ 问题动机讲得清楚,方法描述条理分明,图表设计直观
- 价值: ⭐⭐⭐⭐ 首次实现完全无外部依赖的 pose-free event-based 3D 重建,拓展了事件相机应用的自主性边界