Un-EVIMO: Unsupervised Event-based Independent Motion Segmentation¶

会议: ECCV 2024
arXiv: 2312.00114
代码: https://www.cis.upenn.edu/~ziyunw/un_evmoseg/
领域: 运动分割 / 事件相机
关键词: Event Camera, Independent Motion Segmentation, Unsupervised, Pseudo-label, optical flow

一句话总结¶

首个无需标注的事件相机独立运动物体(IMO)分割框架，利用光流与几何约束生成伪标签训练分割网络，在 EVIMO 数据集上取得与有监督方法可比的性能。

研究背景与动机¶

事件相机具有高时间分辨率、高动态范围和低功耗等特性，非常适合处理需要快速响应的运动分割任务。然而，现有的事件相机运动分割方法严重依赖标注数据，标注成本极高（如 EVIMO 数据集需要 Vicon 多相机系统追踪物体并投影生成 mask）。

生物视觉系统（如昆虫捕食、人类驾驶避障）在不使用显式标签的情况下就能完成独立运动物体的检测。受此启发，作者提出了一个核心问题：能否仅通过观察运动模式，利用事件相机在无标注情况下学习运动分割？

现有方法的主要局限：

混合模型方法（如 EMSGC、EVIMO）需要预设固定的运动模型数量和参数化形式，泛化能力差

有监督方法（如 SpikeMS、EVDodgeNet）需要大量标注的 IMO mask

优化方法（如 EMSGC）需要逐场景调参，推理效率极低

方法详解¶

整体框架¶

Un-EVIMO 由两个核心模块组成： 1. 几何自标注模块（训练阶段）：利用光流和深度信息，通过 RANSAC 估计相机运动，计算残差光流场，再通过自适应阈值生成 IMO 伪标签 2. 事件运动分割网络（推理阶段）：仅以事件流作为输入，通过前馈 UNet 网络直接预测 IMO 二值分割 mask

关键优势：训练时需要深度和光流，但推理时仅需事件流，无需任何额外传感器输入。

关键设计¶

带独立运动的光流估计：在 DSEC 上预训练的 E-RAFT 由于训练数据缺少独立运动物体，对 IMO 区域的光流估计效果很差。作者用 RAFT 从灰度图预测的光流作为监督信号对 E-RAFT 进行微调，使其能正确估计 IMO 区域的光流。EPE 从 E-RAFT 的 11.15 降到 1.55（Table 场景）。
鲁棒相机运动估计（RANSAC）：IMO 运动与相机运动不一致，直接优化会被近距离快速运动物体偏置。作者利用完整的刚体运动场模型（6-DOF），通过 RANSAC 采样 3 个点求解线性方程 \(A\theta = b\)（公式 7），用 SVD 对所有 inlier 像素求解超定最小二乘问题。最大迭代 300 次或停止概率达 0.999。相机位姿估计的平移误差在 Table 和 Floor 场景下达到亚厘米级（0.0082m, 0.0075m）。
自适应几何阈值化（Otsu 方法）：残差光流 \(r(q_i) = \|\Psi(q_i) - \Psi_{cam}(q_i)\|_2\) 通常呈双峰分布——一个峰对应刚体背景（低残差），另一个对应 IMO（高残差）。采用 Otsu 方法最大化两类间方差来自动选择阈值，避免不同场景噪声和深度变化导致的固定阈值失效。此外引入两级置信度过滤：若总方差过大（光流预测边界不清晰）或类间方差过小，则丢弃该训练样本。
可选深度输入与参数化光流：深度仅在训练阶段用于伪标签生成。作者还提供了无需深度的替代方案——使用 6-DOF 或 12-DOF 二次参数化光流模型（公式 10-12），虽然性能稍有下降，但仍优于 EMSGC。

损失函数 / 训练策略¶

Focal Loss：由于 IMO 通常只占画面很小区域，存在严重的类别不平衡，使用 Focal Loss 替代标准交叉熵
事件体积表示：使用 15 通道的事件体积，通过双线性插值核将事件分配到离散时空 bin 中，保留丰富的时间信息
网络架构：UNet 结构，ResNet34 编码器（ImageNet 预训练），瓶颈层聚合全局特征用于区分全局相机运动和局部 IMO 运动
优化器：Adam，学习率 \(2 \times 10^{-4}\)

实验关键数据¶

主实验¶

在 EVIMO 数据集上的 Event-masked IoU 评估（公式 13，40Hz 评估频率）：

场景	Baseline CNN(监督)	EVIMO(监督)	SpikeMS(监督)	EMSGC Top30%(无监督)	Un-EVIMO(无监督)
Table	66±23	79±6	50±8	55±17	50±21
Box	50±23	70±5	65±8	24±28	45±24
Floor	74±13	59±9	53±16	18±29	56±15
Wall	60±20	78±5	63±6	24±33	53±19
Fast	52±24	67±3	38±10	43±27	44±21

消融实验¶

配置	Table	Box	Floor	Wall	Fast	说明
(a) E-RAFT 未微调	32±23	28±21	35±19	42±22	27±23	预训练光流缺少 IMO
(b) 6-DOF 参数化	43±26	42±25	51±21	47±23	37±24	无需深度，简化模型
(c) 12-DOF 参数化	47±24	40±25	56±18	49±22	37±25	更灵活的参数化
完整模型	50±21	45±24	56±15	53±19	44±21	深度+全运动场

关键发现¶

光流质量是关键瓶颈：使用未微调 E-RAFT 的消融实验性能大幅下降（Table 从 50 降到 32），说明对 IMO 区域的光流准确性至关重要
实时推理：Un-EVIMO 总推理时间仅 6.57ms（3.35ms 预处理 + 3.22ms 推理），远快于 EMSGC 的 9529ms 和 SpikeMS 的 120ms
相机姿态估计精度高：平移误差亚厘米级，旋转误差约 0.03 rad，证明了 flow+RANSAC 的鲁棒性
合成运动模糊视频上，有监督 RGB 方法性能严重退化（Table IoU 仅 24），凸显事件相机在高速场景的优势

亮点与洞察¶

几何自标注的可扩展性：不依赖语义信息，纯几何方法可迁移到任意场景，无需物体扫描或 Vicon 系统
训练-推理解耦：训练时需要深度和光流生成伪标签，推理时仅需事件流——一种优雅的知识蒸馏思路
不假定固定物体数目：与混合模型方法不同，本文的逐像素分类方式可自然处理任意数量的 IMO
完整运动场模型：不简化几何，使用完整的 6-DOF 刚体运动场方程，保证理论正确性

局限与展望¶

缺乏时序一致性：当前方法在单个事件切片上独立预测，连续帧的预测可能出现不一致（图 5b），可引入时序约束或 CRF
静止/低速 IMO 漏检：残差光流很小的物体难以被检测，需要结合历史运动信息
边界模糊：伪标签天然带噪，导致网络预测的 mask 边界不如有监督方法锐利
深度依赖：虽然推理不需要深度，但训练阶段最优性能仍依赖深度输入，参数化光流模型是潜在的无深度替代方案

评分¶

新颖性: ⭐⭐⭐⭐ 首次将几何自标注应用于事件相机 IMO 分割，解耦训练和推理的设计巧妙
实验充分度: ⭐⭐⭐⭐ 涵盖多场景定量评估、消融实验、速度对比、失败案例分析，但仅在 EVIMO 一个数据集评估
写作质量: ⭐⭐⭐⭐ 数学推导完整清晰，从运动场方程到 RANSAC 到 Otsu 阈值化的叙述逻辑通顺
实用价值: ⭐⭐⭐⭐ 实时推理 + 无需标注训练，对事件相机实际应用（自动驾驶、无人机避障）有重要意义