跳转至

LiDAR-Event Stereo Fusion with Hallucinations

会议: ECCV 2024
arXiv: 2408.04633
代码: https://eventvppstereo.github.io/ (有)
领域: LLM/NLP
关键词: 事件相机, LiDAR融合, 立体匹配, 幻觉事件注入, 深度估计

一句话总结

首次探索 LiDAR 与事件立体相机的融合,提出虚拟堆叠幻觉(VSH)和回溯时间幻觉(BTH)两种策略,通过在事件流/堆叠中注入虚拟事件来增强匹配可辨别性,大幅提升事件立体匹配精度。

研究背景与动机

  • 事件相机具有微秒级时间分辨率和高动态范围,适合高速运动和极端光照场景
  • 但事件相机仅在亮度变化时触发,面临无运动或大面积无纹理区域时的困难——对应点匹配极具挑战
  • LiDAR 能在事件相机失效的区域提供稀疏深度测量(互补性强)
  • 关键挑战:LiDAR 固定频率(如 10Hz)与事件相机异步采集不同步
  • 现有 RGB 立体-LiDAR 融合方法(Guided Stereo、LidarStereoNet、CCVNorm)未适配事件相机
  • 本文是首次将 LiDAR 与事件立体框架结合的尝试

方法详解

整体框架

根据对立体网络的访问程度分三类: - 白盒:可访问网络实现和事件堆叠构建 - 灰盒:可访问事件堆叠但不可修改网络内部 → 适用 VSH - 黑盒:堆叠表示也不可访问 → 适用 BTH

两种幻觉策略: 1. VSH(Virtual Stack Hallucination):在堆叠表示中直接注入虚拟模式 2. BTH(Back-in-Time Hallucination):在原始事件流中注入虚拟事件

关键设计

VSH — 虚拟堆叠幻觉: - 给定左右事件堆叠 S_L, S_R 和稀疏深度 Z - 将深度转换为视差:d(x,y) = bf/z(x,y) - 在堆叠的对应位置 (x,y) 和 (x',y) 注入相同的虚拟模式 - A(x,y,x',c) ~ U(S⁻, S⁺):从堆叠值域均匀随机采样 - 支持单像素或 patch(3×3 最优) - alpha 混合系数 0.5 效果最佳

BTH — 回溯时间幻觉: - 在原始事件流中注入虚拟事件 ê^L = (x̂, ŷ, p̂, t̂) 和 ê^R = (x̂', ŷ, p̂, t̂) - 满足三个约束:时间排序、几何一致性(x̂' = x̂ - d)、相似性(同极性同时间戳)

单时间戳注入:在固定时间戳 t_z 注入随机极性事件 重复注入(关键改进):沿时间轴分 B=12 个 bin,在每个 bin 的 MDES 风格时间点注入 - 每个深度测量仅用一次(随机分配到某个 bin) - 大幅提升对 LiDAR 数据不同步的鲁棒性

利用过期 LiDAR 数据: - 即使 LiDAR 扫描时间 t_z < t_d(不同步),仍可将虚拟事件放在事件历史中的对应位置 - 保持了事件相机的微秒级分辨率,无需等待 LiDAR 同步

损失函数 / 训练策略

  • 基于 SE-CFF 框架,使用 AANet 立体骨干
  • Adam 优化器,LR=5×10⁻⁴,余弦退火,weight decay=10⁻⁴
  • 25 epochs,batch size 4,最大视差 192
  • 评估 8 种事件堆叠表示:Histogram, Voxel Grid, MDES, Concentrated, TORE, Time Surface, ERGO-12, Tencode

实验关键数据

主实验

DSEC 数据集(预训练模型,直接应用融合):

表示 Baseline 1PE Guided 1PE VSH 1PE BTH 1PE
Histogram 16.21 16.07 13.71 13.32
MDES 15.32 15.13 - -

VSH 和 BTH 在所有 8 种表示上均显著优于 Guided Stereo 等现有融合方法。

消融实验

超参数 最优设置
Patch 大小 3×3(VSH/BTH 均一致)
均匀模式 vs 随机模式 均匀更优
Alpha 混合 0.5
单次 vs 重复注入 重复注入显著更优
注入事件数 2 即饱和
均匀极性 vs 随机极性 均匀极性更优

关键发现

  1. 事件流本身的半稀疏特性使虚拟模式注入比 RGB 域更有效——不需要与已有像素值"竞争"
  2. BTH 的重复注入在处理不同步 LiDAR 数据时显著更鲁棒
  3. VSH 更简单快速(2-15ms CPU),BTH 更通用(黑盒兼容)但稍慢(10ms CPU)
  4. 方法对 M3ED 数据集(域外)的泛化性良好

亮点与洞察

  • "幻觉"概念的巧妙应用:不是在结果中添加信息,而是在输入中注入虚拟事件来增强可辨别性
  • 互补性分析精辟:事件相机在纹理边界处强(LiDAR弱),LiDAR在无纹理区域强(事件相机弱)
  • 保持微秒分辨率:通过利用过期 LiDAR 数据,避免了被 LiDAR 10Hz 帧率限制
  • 全面的表示覆盖:在 8 种不同事件堆叠表示上验证,证明了方法的通用性

局限性 / 可改进方向

  • VSH 需要灰盒访问(知道堆叠表示),BTH 的遮挡处理策略不成熟
  • Fixed-point Inversion 的 LiDAR-事件对齐(ICP + LiDAR IMU odometry)复杂度较高
  • 仅在两个数据集上验证(DSEC 室外 + M3ED 室内外)
  • 虚拟模式的注入可能引入匹配歧义(相邻像素相似模式)
  • 未来方向:学习最优注入模式(而非随机)、3D 场景变化时的深度更新策略

相关工作与启发

  • VPP(Virtual Pattern Projection)在 RGB 立体中的成功启发了本文的事件域适配
  • Guided Stereo Matching 和 LidarStereoNet 作为 baseline 对比展示了直接迁移的局限
  • 事件相机-LiDAR 融合是新兴方向,本文开辟了立体匹配这一特定应用

评分

维度 分数 (1-5)
新颖性 4.5
技术深度 4
实验充分性 4.5
写作质量 4.5
实用价值 4
总分 4.3

相关论文