LiDAR-Event Stereo Fusion with Hallucinations¶

会议: ECCV 2024
arXiv: 2408.04633
代码: 有
领域: 自动驾驶 / 深度估计
关键词: 事件相机, LiDAR融合, 立体匹配, 深度估计, 事件幻觉

一句话总结¶

提出将LiDAR稀疏深度点与事件立体相机融合的首个框架，通过在事件堆叠表示（VSH）或原始事件流（BTH）中"幻觉"（插入虚构事件）来弥补事件相机在无运动/无纹理区域的信息缺失，大幅提升事件立体匹配精度。

研究背景与动机¶

领域现状¶

事件相机（neuromorphic cameras）通过异步报告像素亮度变化，具有微秒级时间分辨率和极高动态范围，非常适合快速运动和极端光照下的深度估计。事件立体匹配将事件流编码为结构化表示（如直方图、体素网格、MDES等），再用深度网络估计视差图。

核心痛点¶

事件相机仅在亮度变化时触发，因此在以下场景会产生灾难性失败：

无运动场景：相机或物体静止时完全没有事件

大面积无纹理区域：如天空、墙面、路面等亮度均匀区域不触发事件 3. 半稠密的事件数据使得立体匹配中的对应点搜索极其困难

现有方案与局限¶

RGB立体匹配中，LiDAR融合方法（拼接输入、调制代价体积、Virtual Pattern Projection）已被广泛研究
但 事件立体 + LiDAR融合 领域完全空白
直接套用RGB融合方法存在问题：LiDAR固定帧率（通常10Hz）与事件相机的异步采集天然矛盾——要么仅在LiDAR可用时使用深度（大多时间浪费），要么降低处理速率到LiDAR频率（丧失事件相机微秒级分辨率优势）

核心互补性洞察¶

事件相机与LiDAR天然互补： - 事件相机：在物体边界（亮度变化剧烈处）提供丰富信息，但LiDAR在此处稀疏 - LiDAR：在无纹理、无运动区域可靠测距，但事件相机在此处无信息

核心 idea¶

受RGB领域Virtual Pattern Projection (VPP)启发，设计一种 "幻觉"机制：利用LiDAR深度点在事件数据中插入虚构的匹配线索。在已知某像素深度（即视差）的前提下，在左右视图的对应位置注入相同的distinctive patterns，让立体网络更容易找到正确匹配。

方法详解¶

整体框架¶

根据对事件立体网络的访问级别，定义三种框架： - 白盒（White box）：可访问网络和堆叠表示的实现 - 灰盒（Gray box）：可访问堆叠表示但不可访问网络内部 - 黑盒（Black box）：堆叠表示和网络均不可访问

提出两种幻觉策略：VSH（适用于灰盒）和BTH（适用于黑盒），均不需修改立体网络本身。

关键设计¶

1. 虚拟堆叠幻觉（Virtual Stack Hallucination, VSH）¶

功能：在已构建的事件堆叠表示上直接注入虚拟模式，增强匹配区分度。

核心思路：给定左右事件堆叠 \(\mathcal{S}_L, \mathcal{S}_R\)（尺寸 \(W \times H \times C\)）和LiDAR深度测量集合 \(Z\)，对每个深度点 \(z(x,y)\)：

将深度转换为视差：\(d(x,y) = \frac{bf}{z(x,y)}\)
计算右图对应位置：\(x' = x - d(x,y)\)
在左右堆叠的对应位置注入相同的虚拟模式：

\[\mathcal{S}_L(x,y,c) \leftarrow \mathcal{A}(x,y,x',c), \quad \mathcal{S}_R(x',y,c) \leftarrow \mathcal{A}(x,y,x',c)\]

虚拟模式 \(\mathcal{A}\) 从均匀分布中随机采样：

\[\mathcal{A}(x,y,x',c) \sim \mathcal{U}(\mathcal{S}^-, \mathcal{S}^+)\]

其中 \(\mathcal{S}^-, \mathcal{S}^+\) 为堆叠中的最小/最大值。可选择单像素或局部窗口（3×3效果最佳），并支持alpha blending。

设计动机：事件堆叠在无事件区域完全空白（semi-dense），注入matching-consistent的随机模式能极大增强局部区分度。在左右对应位置注入相同模式直接提供了正确视差的匹配线索。对事件堆叠的效果比RGB图像更显著，因为作用在更稀疏的数据上。

2. 回溯时间幻觉（Back-in-Time Hallucination, BTH）¶

功能：直接在原始事件流中插入虚构事件，无需访问堆叠表示。

核心思路：在从 \(t_d\) 时刻向前采样的事件历史 \(\mathcal{E}_L, \mathcal{E}_R\) 中，对每个深度点 \(d(\hat{x},\hat{y})\)，注入一对虚构事件：

\[\hat{e}^L = (\hat{x}, \hat{y}, \hat{p}, \hat{t}), \quad \hat{e}^R = (\hat{x}', \hat{y}, \hat{p}, \hat{t})\]

满足三个约束： - 时间有序性：\(\hat{t}\) 在事件历史时间范围内 - 几何约束：\(\hat{x}' = \hat{x} - d(\hat{x},\hat{y})\) - 一致性约束：左右虚构事件的极性 \(\hat{p}\) 和时间戳 \(\hat{t}\) 相同

单时间戳注入：在固定时间戳 \(t_z\) 注入 \(K_{\hat{x},\hat{y}}\) 对随机极性的事件。关键优势：即使 \(t_z < t_d\)（LiDAR数据过时），只要在事件历史时间范围内，仍可有效利用。

重复注入（Repeated Injection）：更高级策略——将事件历史分为 \(B\) 个时间bin，在每个bin中独立进行注入。每个深度点仅在随机分配的一个bin中注入，增强时间维度的区分度。使用 \(B=12\) 个注入点、每点注入2个虚构事件。

设计动机：BTH无需访问堆叠表示（黑盒兼容），且能利用事件数据的时间维度优势。重复注入特别增强了对LiDAR数据时间偏移（misaligned，\(t_z < t_d\)）的鲁棒性。

3. 框架级别的适配¶

8种堆叠表示全面支持：Histogram, Voxel Grid, MDES, Concentration, TORE, Time Surface, ERGO-12, Tencode
支持预训练模型直接应用（无需重训练）和从头训练两种模式
遮挡处理、均匀/非均匀patch等细节继承自VPP

训练策略¶

骨干网络：基于SE-CFF的AANet变体
训练 25 epochs，batch size 4，最大视差192
Adam优化器，lr=\(5 \times 10^{-4}\)，cosine衰减
随机裁剪和垂直翻转数据增强
VSH额外引入2-15ms CPU开销，BTH引入10ms

实验关键数据¶

主实验¶

DSEC数据集 - 预训练模型（8种表示平均排名）：

融合方法	1PE↓ Avg Rank	2PE↓ Avg Rank	MAE↓ Avg Rank	说明
Baseline (无融合)	3.00	3.00	3.00	纯事件立体
Guided [Poggi]	-	-	-	代价体积调制，改善有限
VSH (Ours)	1.75	1.38	1.50	灰盒策略
BTH (Ours)	1.25	1.63	1.13	黑盒策略，最优

DSEC数据集 - 重训练模型（8种表示平均排名）：

融合方法	1PE↓ Avg Rank	2PE↓ Avg Rank	MAE↓ Avg Rank
Concat [LidarStereoNet]	3.38	3.00	3.13
Guided+Concat [CCVNorm]	3.63	3.50	3.38
Guided [Poggi]	5.00	5.00	5.00
VSH (Ours)	1.38	1.88	1.13
BTH (Ours)	1.63	1.38	1.88

重训练时VSH表现最优，1PE常降至10%以下（如ERGO-12: 9.25%）。

M3ED数据集 - 跨域泛化（预训练）：

表示	Baseline 1PE	VSH 1PE	BTH 1PE	相对改善
Histogram	37.70	20.19	22.32	~46%
ERGO-12	36.33	22.53	20.41	~44%
Tencode	43.56	28.24	22.61	~48%

在M3ED上改善更为惊人，1PE从30-40%+降至20%左右。

消融实验¶

DSEC搜索集上的超参数消融（1PE，8种表示平均）：

配置	效果	说明
VSH: 单像素 vs 3×3 patch vs 5×5	3×3最优	适当patch增强区分度
VSH: 随机模式 vs 均匀模式	均匀更好	统一模式更有效
VSH: alpha=0 vs 0.5 vs 1.0	0.5最优	原始内容与模式的平衡
BTH: 单次注入 vs 重复注入	重复注入更优	利用时间维度
BTH: 1 vs 2 vs 4 虚构事件	2个即饱和	少量事件即足够
BTH: 随机极性 vs 均匀极性	均匀更好	增强一致性

关键发现¶

Guided方法在事件立体上效果有限：16线LiDAR过于稀疏，且代价体积调制在无事件区域帮助不大
VSH和BTH显著优于所有现有RGB融合方法的迁移：1PE降低2-3%（预训练）或更多（重训练）
BTH在预训练场景最优，VSH在重训练场景最优：BTH更灵活（黑盒），VSH更直接（可训练优化）
过时LiDAR数据仍可有效利用：BTH的重复注入策略使得\(t_z < t_d\)时仅有微小精度下降，保持了事件相机微秒级分辨率的优势
方法对所有8种事件表示通用：非特定某种表示设计

亮点与洞察¶

问题定义的开创性：首次探索事件立体+LiDAR融合，识别到两种传感器的天然互补性
"幻觉"的优雅设计：不修改网络、不改变表示格式，仅通过数据层面的注入实现大幅改善
黑盒兼容性：BTH甚至不需要访问堆叠表示，具有极强通用性
异步传感器的优雅处理：利用事件历史的时间范围，将过时LiDAR数据也能无缝整合

局限与展望¶

VSH需要访问堆叠表示（灰盒限制），BTH的遮挡处理不如VSH完善
实验中LiDAR稀疏点的对齐依赖额外的里程计和ICP配准
虚构事件的模式为简单随机/均匀，可探索学习更优的注入模式
未考虑事件相机和LiDAR的在线标定误差
可扩展到单目事件深度估计 + LiDAR融合

评分¶

新颖性: ⭐⭐⭐⭐ — 开辟事件立体+LiDAR融合新方向，幻觉机制设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ — 2个数据集、8种表示、多种融合对比、预训练/重训练双模式、超参消融全面
写作质量: ⭐⭐⭐⭐ — 问题定义清晰、方法描述细致、实验组织条理分明
价值: ⭐⭐⭐⭐ — 高实用性（自动驾驶主流传感器组合），通用性强（8种表示均适用）