Simultaneous Motion And Noise Estimation with Event Cameras¶

会议: ICCV 2025
arXiv: 2504.04029
代码: GitHub
领域: 视频理解
关键词: 事件相机, 去噪, 运动估计, 对比度最大化, 联合估计

一句话总结¶

首次提出事件相机运动估计与噪声估计的联合方法，利用对比度最大化（CMax）框架中运动补偿后的局部对比度对每个事件评分，通过交替优化同时获得运动参数和信号/噪声分类，在 E-MLB 去噪基准上达到 SOTA。

研究背景与动机¶

事件相机是新型视觉传感器，能克服传统相机的运动模糊、有限动态范围等缺陷，但由于其工作在低功耗（亚阈值）条件下，会产生大量噪声（尤其是背景活动 BA 噪声）。

现有方法的关键问题：

去噪与运动估计割裂：现有去噪方法通常独立设计，将运动估计作为单独的后续任务。然而，运动是事件数据的本质属性——没有运动就无法感知场景边缘。二者应该是协同的。

Ground Truth 获取困难：学习方法需要 GT 噪声标签，但在真实数据中无法定义。现有方案要么依赖仿真，要么通过激进的预过滤来获取"纯信号"数据，但这种处理可能改变事件的信号/噪声特性。

循环依赖问题：去噪需要知道真实运动（将信号事件与噪声分开），而准确的运动估计又需要信号事件（因为噪声不携带运动信息）。

核心洞察：运动信息可以帮助去噪（反之亦然）。不如将二者整合到一个统一框架中同时求解。本文是首个同时估计运动（自运动、光流等多种形式）和噪声的方法。

方法详解¶

整体框架¶

基于对比度最大化（CMax）框架的迭代交替优化：

用当前信号事件估计运动（CMax 的一步优化）
用估计的运动对所有事件进行运动补偿
根据补偿后的局部对比度对每个事件评分
按评分排序+阈值化分类为信号/噪声
更新信号事件集，重复步骤 1

关键设计¶

对比度最大化（CMax）基础

CMax 框架假设事件由移动边缘产生，根据运动模型 $\mathbf{W}$ 变换事件坐标，将事件集 $\mathcal{E} = \{e_k\}_{k=1}^{N_e}$ 变换到参考时刻：

$$e_k = (\mathbf{x}_k, t_k, p_k) \mapsto e'_k = (\mathbf{x}'_k, t_{ref}, p_k)$$

变换后的事件在像素网格上聚合生成 warped event image (IWE)：

$$I(\mathbf{x}; \boldsymbol{\theta}) = \sum_{k=1}^{N_e} \delta(\mathbf{x} - \mathbf{x}'_k)$$

其中 Dirac delta 用高斯近似。优化目标是最大化 IWE 的对比度（图像方差），从而找到使事件最大程度对齐的运动参数。

本文支持两种运动模型：旋转运动（3-DOF 角速度估计）和稠密光流（逐像素速度估计，$2N_p$ DOF）。

基于局部对比度的去噪

核心思想：信号事件经过正确运动补偿后会聚集在边缘位置，产生高 IWE 值；噪声事件因随机分布不会聚集，IWE 值低。

对每个事件 $e_k$ 计算得分 $c_k$：

$$c_k = I(\mathbf{x}'_k)$$

即该事件在运动补偿后的 IWE 中的局部值（局部对比度）。IWE 值越高，说明更多事件支持同一场景边缘，该事件越可能是信号。

按得分排序后阈值化分类：

$$\mathcal{E}_{signal} = \{e_k \in \mathcal{E} \mid c_k > T(\eta)\}$$ $$\mathcal{E}_{noise} = \mathcal{E} \setminus \mathcal{E}_{signal}$$

其中 $\tau = 1 - \eta$ 为信号事件比例，$\eta$ 为噪声比例（先验或估计值）。

不变性：分类结果对 $c_k$ 的单调递增变换不变（如取对数、指数等），因为排序保持不变。

对不同边缘强度的鲁棒性：IWE 中的高斯核控制对边缘强度的敏感度，增大高斯核可以更好保留低 IWE 强度区域的信号事件。

交替优化

信号/噪声分类和运动估计构成循环依赖——分类需要真实运动，运动估计需要信号事件。

解决方案是迭代交替优化： - 初始化：随机划分事件为信号和噪声集 - 每次迭代：①用当前信号事件做 CMax 运动估计（1步即可）→ ②用估计运动对所有事件做 warping → ③计算所有事件的评分 $c_k$ → ④重新划分信号/噪声集 - 收敛判据：运动参数收敛

计算复杂度：单次迭代 $O(N_p + N_e \log N_e)$，仅比原始 CMax 的 $O(N_p + N_e)$ 多了一个排序的 $\log$ 因子。

灵活性：运动估计步骤中的 CMax 可被替换为任何其他运动估计器（包括深度神经网络），方法具有良好的可扩展性。

损失函数 / 训练策略¶

本方法为无监督方法，不需要训练损失。运动估计的目标函数是 IWE 的方差（对比度）：

\[\text{Var}(I(\mathbf{x}; \boldsymbol{\theta})) = \frac{1}{|\Omega|}\int_{\Omega}(I(\mathbf{x}; \boldsymbol{\theta}) - \mu_I)^2 d\mathbf{x}\]

通过最大化该目标来找到最优运动参数 $\boldsymbol{\theta}^*$。整个过程为优化而非学习，无需GT标签。

实验关键数据¶

主实验¶

E-MLB 去噪基准（MESR↑，值越高越好）：

方法	类别	Day ND1	Day ND4	Day ND16	Day ND64	Night ND1
BAF	模型	0.861	0.869	0.876	0.890	0.946
IETS	模型	0.772	0.785	0.777	0.753	0.950
MLPF	学习	0.851	0.855	0.846	0.840	0.926
EDformer	学习	0.952	0.955	0.956	0.942	1.048
Ours	模型	0.938	0.958	0.986	0.950	1.037

在模型基方法中排名第一或第二，部分条件下甚至超越需要 GT 训练的学习方法。

DND21 去噪基准（AUC↑）：

方法	hotel 1Hz	driving 1Hz	hotel 5Hz	driving 5Hz
BAF	0.9535	0.8479	0.8916	0.7930
TS	0.9716	0.9307	0.9606	0.9270
EDformer	0.9928	0.9541	0.9845	0.9424
Ours	1.014	0.882	0.963	0.855

消融实验¶

运动估计改善（ECD 数据集，旋转运动）：

配置	方法	效果	说明
无去噪	CMax 原始	依赖初始值	容易陷入局部最优
BAF 预处理	CMax + BAF	部分改善	简单滤波不够
联合估计	Ours	显著改善	降低对初始值的依赖

光流估计（MVSEC 数据集）+ 去噪组合：

配置	说明
基于深度学习的运动估计器	本方法可将 CMax 替换为 DNN 进行联合估计
图像重建质量	去噪后事件重建的图像质量显著优于原始事件

关键发现¶

去噪改善运动估计：联合方法降低了 CMax 框架对初始值的依赖，使旋转运动估计更鲁棒。
运动改善去噪：正确的运动补偿使信号事件聚集度更高，噪声分类更准确。
无监督超越有监督：在 E-MLB 的多个条件下，无监督方法超越了依赖 GT 标签训练的学习方法。
方法灵活性：可与深度学习运动估计器结合，不限于 CMax 框架。
实际应用：去噪后的事件用于图像强度重建，产生更少伪影和更高质量的图像。

亮点与洞察¶

第一性原理驱动：从"噪声与运动不相关"的物理原理出发，将两个看似独立的问题统一为联合估计。
无监督、无需 GT 标签：突破了学习方法对标注数据的依赖，在真实场景中更具实用性。
理论优雅：基于 IWE 的评分-排序-阈值化流程简洁清晰，分类结果对评分的单调变换不变。
计算高效：仅比原始 CMax 多一个排序操作的计算开销。
开源：提供了完整的开源实现。

局限与展望¶

需要先验知识或估计噪声比例 $\eta$，不同场景下最优 $\eta$ 可能不同。
不处理闪烁或主动光源导致的非 BA 噪声。
交替优化可能收敛到局部最优，尤其在高噪声率场景下。
DND21 数据集中"纯信号"通过激进过滤获得，可能与真实信号分布有偏差，导致评估值偏低。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次联合运动+噪声估计，第一性原理驱动
实验充分度: ⭐⭐⭐⭐ 多数据集验证+多任务应用展示
写作质量: ⭐⭐⭐⭐⭐ 数学推导清晰，物理直觉强
价值: ⭐⭐⭐⭐ 开辟了事件相机研究的新方向