EventFly: Event Camera Perception from Ground to the Sky¶
会议: CVPR 2025
arXiv: 2503.19916
代码: 有(https://event-fly.github.io)
领域: 3D视觉
关键词: 事件相机, 跨平台域适应, 语义分割, 数据混合, 对抗训练
一句话总结¶
EventFly 提出了首个事件相机跨平台域适应框架,通过事件激活先验(EAP)识别高激活区域、EventBlend 混合源/目标域事件数据、EventMatch 双判别器对齐特征分布,在车辆→无人机→四足机器人三个平台间的语义分割任务上,相比 source-only 训练平均提升准确率 23.8%、mIoU 77.1%。
研究背景与动机¶
-
领域现状:事件相机凭借异步工作、高时间分辨率和高动态范围的特性,在自动驾驶、空中导航和机器人感知等高速动态环境中展现了巨大优势。然而,现有事件相机感知数据集和方法几乎全部集中在车载平台(15 个公共数据集中有 12 个来自地面车辆),无人机和四足机器人等平台的数据极其有限。
-
现有痛点:不同机器人平台有着截然不同的运动模式、视角和环境交互:车辆捕获道路和障碍物,无人机俯视地面特征,四足机器人视角不稳定且贴近地面。这些差异导致事件数据的空间-时间激活模式完全不同。传统帧图像的域适应方法(AdaptSegNet、DACS、MIC 等)无法处理事件数据独特的时空特性。
-
核心矛盾:事件相机的感知模型通常在单一平台(主要是车辆)上训练,但要部署到无人机或四足机器人等新平台时,数据分布差异导致性能严重下降。同时,为每个新平台标注大量数据成本过高。
-
本文目标 设计一个专门针对事件相机数据特性的跨平台域适应框架,使得在一个平台训练的感知模型可以有效迁移到其他平台。
-
切入角度:不同平台的事件数据虽然整体分布差异大,但在特定空间区域存在激活模式的重叠——利用这些共享的高激活区域作为域适应的桥梁。
-
核心 idea:通过"事件激活先验"识别跨平台共享的高激活区域,用基于激活相似度的数据混合构建中间域,再用双判别器对齐源域-中间域-目标域特征,实现渐进式跨平台适应。
方法详解¶
整体框架¶
EventFly 的输入是有标签的源域事件体素栅格(如车辆)和无标签的目标域事件体素栅格(如无人机)。整体流程:(1)EAP 计算目标域的聚合密度图,识别高激活区域;(2)EventBlend 基于源样本和目标聚合密度图的相似度,生成混合事件体素栅格和对应标签;(3)源、目标、混合三路数据通过共享特征提取器,EventMatch 的两个判别器分别对齐源-混合和混合-目标特征。
关键设计¶
-
事件激活先验 EAP(Event Activation Prior):
- 功能:识别目标域的高激活区域并引导模型在这些区域产生高置信度预测。
- 核心思路:对目标域的每个子区域 \(\mathbf{S}\),EAP 鼓励最小化条件熵 \(H(y_\mathbf{S} | \mathbf{V}_\mathbf{S}, \mathbf{S})\)。通过最大熵原理将约束 \(\mathbb{E}_\theta[H(\mathbf{V_S}, y_\mathbf{S} | \mathbf{S})] \leq c\) 转化为参数先验 \(P(\theta) \propto \exp(-\lambda H(y_\mathbf{S} | \mathbf{V_S}, \mathbf{S}))\),融入 MAP 训练目标 \(C(\theta) = \mathcal{L}(\theta) - \lambda H_{\text{emp}}(y|\mathbf{V}, \mathbf{S})\)。直觉是:不同平台的事件相机在特定区域有持续的高激活模式(车辆的下方=道路,无人机的上方=天空),这些区域的语义模式一致性高,适合低熵正则化。
- 设计动机:传统熵最小化对所有区域一视同仁,但事件数据中大量区域无激活(无信息),在这些区域强制低熵反而引入噪声。EAP 聚焦于有事件活动的信息丰富区域,使正则化更有针对性。
-
EventBlend 跨平台数据混合:
- 功能:构建融合源域和目标域特征的中间域数据。
- 核心思路:第一步,计算每个源样本的密度图 \(\mathbf{D}_i^\mathbf{v}(\mu,\nu) = \sum_{t=1}^T |\mathbf{V}_i^\mathbf{v}(t,\mu,\nu)|\) 和目标域的聚合密度图 \(\tilde{\mathbf{D}}^\mathbf{d}\);第二步,计算逐像素相似度 \(\mathbf{SIM}_i(\mu,\nu) = 1 - |\mathbf{D}_i^\mathbf{v}(\mu,\nu) - \tilde{\mathbf{D}}^\mathbf{d}(\mu,\nu)|\),只在至少一方有激活的位置计算;第三步,用阈值 \(\tau\) 生成二值掩码 \(\mathcal{M}_i\),相似度高的区域保留源域(有标签),相似度低的替换为目标域(需要适应);第四步,标签通过源域真值+目标域伪标签(mean teacher)混合。
- 设计动机:与 CutMix/ClassMix 等通用混合策略不同,EventBlend 的混合由事件激活的物理特性驱动——在两个平台事件模式相似的区域保留可靠的源域标注,在差异大的区域引入目标域数据促进适应。
-
EventMatch 双判别器对齐:
- 功能:在特征层面对齐源域、目标域和混合域的分布。
- 核心思路:使用两个全卷积判别器 \(\sigma_1\) 和 \(\sigma_2\):\(\sigma_1\) 负责对齐源域和混合域特征(保持源域的可靠性),\(\sigma_2\) 负责将混合域特征软对齐到目标域(增强目标域适应性,聚焦于 EAP 识别的高激活区域)。这种分层设计让混合域特征成为源域和目标域之间的中间桥梁——既保留源域的监督信号可靠性,又逐步向目标域分布靠拢。
- 设计动机:单判别器直接对齐源-目标域在事件数据上效果不佳,因为两个平台的激活模式差异太大。通过混合域作为中间跳板,分两步渐进对齐,每步的分布差距更小,对抗训练更稳定。
损失函数 / 训练策略¶
总损失包括:源域有监督的交叉熵损失 \(\mathcal{L}(\theta)\);EAP 熵正则化 \(-\lambda H_{\text{emp}}\)(仅在高激活区域);混合域的交叉熵损失(使用混合标签);\(\sigma_1\) 的源-混合对抗损失;\(\sigma_2\) 的混合-目标对抗损失。目标域伪标签通过 mean teacher 在线生成或离线预计算。
实验关键数据¶
主实验(车辆→无人机适应)¶
| 方法 | Acc | mAcc | mIoU | fIoU |
|---|---|---|---|---|
| Source-Only | 43.69 | 33.81 | 15.04 | 11.81 |
| AdaptSegNet | 49.14 | 35.38 | 21.16 | 12.15 |
| DACS | 59.81 | 42.01 | 27.07 | 16.14 |
| MIC | 63.11 | 45.60 | 28.87 | 17.46 |
| PLSR | 64.61 | 45.93 | 29.69 | 17.99 |
| EventFly | 69.17 | 48.20 | 32.67 | 20.01 |
| Target (上界) | 79.57 | 52.25 | 42.90 | — |
消融(基于报告的增益分析)¶
| 配置 | Acc 提升 | mIoU 提升 | 说明 |
|---|---|---|---|
| Source-Only → EventFly | +25.48 | +17.63 | 完整框架 vs 无适应 |
| 相比最佳基线 PLSR | +4.56 | +2.98 | EventFly 的额外收益 |
| 相比 MIC | +6.06 | +3.80 | 超越上下文引导方法 |
关键发现¶
- EventFly 相比 Source-Only 提升极为显著(Acc +25.5%, mIoU +17.6),证明跨平台域差异对事件相机感知的影响非常严重。
- 相比现有帧图像域适应方法的最佳结果 PLSR,EventFly 仍有 4.56% Acc 和 2.98% mIoU 的提升,说明事件数据特有的适应策略是必要的。
- fence、person、sign 等小目标类别的适应最难(mIoU 仍然很低),这些类别在无人机俯视角下的外观与车辆前视差异最大。
- Target 上界(79.57% Acc, 42.90% mIoU)与 EventFly 之间仍有较大差距(~10% mIoU),说明跨平台事件域适应仍是开放挑战。
亮点与洞察¶
- EAP(事件激活先验)是最有洞察力的设计——它利用了事件相机数据独有的"稀疏激活"特性,只在有事件活动的区域做正则化,比全图熵最小化更合理。这个思路可以迁移到其他稀疏数据模态(如 LiDAR、雷达)的域适应中。
- EventBlend 的物理驱动数据混合优于随机混合——混合掩码由两域事件激活模式的物理相似度决定,而非随机裁剪。这种"让数据特性指导数据增强"的哲学可以迁移到其他域适应任务。
- EXPo benchmark 是首个覆盖车辆/无人机/四足机器人三平台的大规模事件感知数据集(~90K 样本),填补了重要的评测空白。
- 首次系统性地定义和研究了"事件相机跨平台适应"问题,建立了完整的问题形式化和评测体系。
局限与展望¶
- 各平台的事件相机型号可能不同(分辨率、阈值 C 等),本文未明确讨论传感器差异的影响。
- EventBlend 的阈值 \(\tau\) 需要调优,不同平台对的最优值可能不同。
- 目前只做了语义分割,检测和深度估计等其他密集预测任务的跨平台适应有待探索。
- 三个平台的两两组合给了 6 个方向,但难度差异很大(车→无人机 vs 无人机→四足),可能需要不对称的适应策略。
- 可以考虑利用事件数据的时间维度信息(如运动模式差异)进一步增强跨平台适应。
相关工作与启发¶
- vs Ev-Transfer/ESS: 这些方法做的是 RGB→事件的跨模态域适应,而 EventFly 做的是事件→事件的跨平台域适应,关注的域差异来源完全不同(模态差异 vs 平台差异)。
- vs DACS/MIC: 这些通用域适应方法在帧图像上设计,未考虑事件数据的稀疏激活特性。EventFly 的 EAP 和 EventBlend 专门利用了事件数据的激活模式,性能更好。
- vs HPL-ESS: 同样做事件域适应但限于帧→事件迁移,EventFly 首次考虑跨机器人平台的事件→事件适应。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次定义跨平台事件域适应问题,EAP 和 EventBlend 的设计利用了事件数据特性
- 实验充分度: ⭐⭐⭐⭐ EXPo 大规模 benchmark 全面,6 个适应方向对比多种基线
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述系统完整,但公式符号较多
- 价值: ⭐⭐⭐⭐ 开创了事件相机跨平台适应这一新方向,benchmark 对后续研究有重要价值
相关论文¶
- [CVPR 2025] IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera
- [CVPR 2025] SphereUFormer: A U-Shaped Transformer for Spherical 360 Perception
- [CVPR 2025] AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
- [CVPR 2025] Event Fields: Capturing Light Fields at High Speed, Resolution, and Dynamic Range
- [CVPR 2025] Floating No More: Object-Ground Reconstruction from a Single Image