FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies¶

会议: NeurIPS 2025
arXiv: 2412.06708
作者: Dongyue Lu, Lingdong Kong, Gim Hee Lee, Camille Simon Chane, Wei Tsang Ooi (NUS, CNRS, CY Cergy Paris University) 代码: flexevent.github.io
领域: 目标检测 / 事件相机 / 多模态融合
关键词: 事件相机, 目标检测, event-frame fusion, frequency adaptation, 自训练

一句话总结¶

提出 FlexEvent 框架，通过自适应事件-图像融合模块 FlexFuse 和频率自适应微调机制 FlexTune，实现事件相机在不同操作频率下的灵活目标检测，在 20Hz 到 180Hz 范围内保持鲁棒性能，显著超越现有方法。

研究背景与动机¶

事件相机以微秒级时间分辨率和异步工作方式，在动态环境中具有独特优势。然而现有事件检测器存在两个核心限制：

固定频率范式：大多数方法将事件数据与低频帧率对齐，采用固定时间间隔处理事件流，忽略了高频事件流中丰富的时间细节。当需要在动态环境中进行高频检测时，性能急剧下降。

语义信息不足：纯事件方法缺乏 RGB 帧提供的空间和语义信息；而现有的事件-帧融合方法虽有改善，但在不同操作频率的适应性上仍然不足。

核心挑战在于：高频事件数据的标注极其昂贵（需要大量人工），且现有融合方法无法有效平衡不同模态在不同频率下的贡献。例如经典的 RVT 检测器在操作频率从 20Hz 提升到更高时，性能显著下降。

方法详解¶

整体框架¶

FlexEvent 由两个关键组件构成：

FlexFuse：自适应事件-帧融合模块，将高频事件数据与 RGB 帧的丰富语义信息动态融合
FlexTune：频率自适应微调机制，通过生成频率调整标签实现跨频率泛化

事件数据表示¶

事件相机在像素 \((x,y)\) 处检测到对数亮度变化超过阈值 \(C\) 时产生事件 \(e=(x,y,t,p)\)，其中 \(p \in \{-1,1\}\) 为极性。事件流被预处理为 4D 张量 \(E(p,\tau,x,y)\)，维度为 \([2, T, H, W]\)，通过时间离散化将连续事件映射到 \(T\) 个时间片中，便于后续卷积处理。

FlexFuse：自适应事件-帧融合¶

动态事件聚合：给定频率 \(a\) 的标注数据和对应帧数据，将时间间隔 \(\Delta t^a\) 划分为 \(b/a\) 个子区间（\(b > a\)），从中随机采样一个高频事件集合 \(\mathbf{E}^b\)。这种策略在训练时引入毫秒级时间抖动作为隐式时间增强，增强对实际同步噪声的鲁棒性。

特征提取：采用双分支架构： - 事件分支 \(\phi_E(\cdot)\)：基于 RVT 提取事件特征 - 帧分支 \(\phi_F(\cdot)\)：基于 ResNet-50 提取 RGB 特征

两个分支均为四阶段结构，在每个尺度 \(i\) 提取事件特征 \({}^{(i)}\mathbf{h}_E^a, {}^{(i)}\mathbf{h}_E^b\) 和帧特征 \({}^{(i)}\mathbf{h}_F\)。

自适应门控融合：在每个尺度 \(i\)，先拼接事件和帧特征 \({}^{(i)}\mathbf{h}_{\text{shared}}^a = [{}^{(i)}\mathbf{h}_E^a,\ {}^{(i)}\mathbf{h}_F]\)，然后通过带噪声的门控函数计算自适应软权重：

\[[\alpha, \beta] = \text{Softmax}((\mathbf{h}_{\text{shared}} \cdot \mathbf{W}) + \sigma \cdot \epsilon)\]

其中 \(\mathbf{W}\) 是可训练权重矩阵，\(\sigma\) 是学习到的标准差控制噪声扰动幅度，\(\epsilon \sim \mathcal{N}(0,1)\) 为高斯噪声。融合特征通过逐元素加权得到：

\[\mathbf{h}_{\text{fuse}}^a = \alpha \odot \mathbf{h}_E^a + \beta \odot \mathbf{h}_F\]

最终将不同频率的融合特征相加：\(\mathbf{h}_{\text{fuse}} = \mathbf{h}_{\text{fuse}}^a + \mathbf{h}_{\text{fuse}}^b\)，多尺度特征级联后送入检测头。

正则化：引入变异系数惩罚项防止模型过拟合到单一模态：

\[\mathcal{L}_{\text{fuse}} = \mathcal{L}_{\text{det}} + \lambda \left(\frac{\text{Var}(\alpha)}{(\mathbb{E}[\alpha])^2} + \frac{\text{Var}(\beta)}{(\mathbb{E}[\beta])^2}\right)\]

FlexTune：频率自适应微调¶

FlexTune 分为两个主要阶段：

阶段1：低频稀疏训练：在高频率 \(b\) 下训练，但仅使用最后一个事件（对应标注时间戳），使模型在利用低频标签的同时捕获高频时间信息。

阶段2：跨频率传播：包含三个步骤：

高频引导（High-Frequency Bootstrapping）：用预训练模型对完整高频事件集生成伪标签 \(\tilde{\mathbf{y}}\)。
时间一致性校准（Temporal Consistency Calibration）：
- 双向事件增强：正向和反向处理事件流以增强召回
- 置信度感知过滤：应用 NMS 和低置信度阈值 \(\tau\) 消除重复并保留高潜力检测
- 轨迹修剪：通过 IoU 跟踪关联跨帧检测，修剪短轨迹以抑制瞬态噪声
循环自训练（Cyclic Self-Training）：迭代训练，总损失函数为：

\[\mathcal{L}_{\text{tune}} = \mathcal{L}_{\text{GT}} + \beta \sum \mathcal{L}_{\text{det}}(\tilde{\mathbf{y}}, \hat{\mathbf{y}})\]

实验与结果¶

实验设置¶

在三个大规模数据集上验证： - DSEC-Det：78,344帧，60个序列，8个类别（主要基准） - DSEC-Detection：52,727帧，41个序列，3个类别 - DSEC-MOD：13,314帧，16个序列，1个类别

训练100K迭代，batch size=8，序列长度=11，学习率1e-4，两块 A5000 GPU 约一天完成训练。

主要结果¶

数据集	指标	前最优	FlexEvent	提升
DSEC-Det	mAP	41.9 (DAGr-50)	57.4	+15.5%
DSEC-Detection	Avg mAP	38.0 (CAFR)	47.4	+9.4%
DSEC-MOD	Avg mAP	29.0 (RENet)	36.9	+7.9%

在 DSEC-Det 上的完整指标：mAP 57.4、AP50 78.2、AP75 66.6、APS 51.7、APM 64.9、APL 83.7，全面超越所有基线方法。

高频泛化能力¶

FlexEvent 在频率变化时的鲁棒性极为突出：

频率	20Hz	36Hz	45Hz	60Hz	90Hz	180Hz	平均
无 FlexFuse/FlexTune	53.2	52.0	49.4	45.9	38.8	22.9	43.7
完整 FlexEvent	57.4	60.1	59.5	58.8	56.5	50.9	57.2

从 20Hz 到 90Hz 仅损失 ~1.5% 性能（保持 96.2%）
在 180Hz 极端条件下仍达 50.9% mAP（基线仅 22.9%）

推理效率¶

方法	参数量	20Hz	90Hz	180Hz
RVT	18.5M	9.20ms	7.19ms	6.77ms
DAGr-50	34.6M	73.35ms	45.29ms	43.89ms
FlexEvent	45.4M	14.27ms	12.47ms	12.37ms

虽然参数量较大，但推理速度与 SAST 相当，远快于 DAGr。FlexTune 为离线操作，不引入运行时开销。

消融分析¶

FlexFuse 贡献：仅添加帧信息使平均 mAP 从 43.7% 提升到 56.4%，高频增益更显著
FlexTune 贡献：180Hz 下 mAP 从 22.9% 提升到 30.4%（无 FlexFuse 时）；与 FlexFuse 联合使用从 49.2% 提升到 50.9%
融合策略对比：自适应门控优于简单 Add、Concat 和 Vanilla Attention
插值标签 vs FlexTune：线性插值标签在快速出现/消失的物体上表现不佳，FlexTune 通过时间一致性校准生成更准确的伪标签

亮点与洞察¶

频率灵活性：首次明确解决事件相机在不同操作频率下的检测问题，从 20Hz 到 180Hz 均保持高精度，在实际部署中具有重要意义——无需为不同场景训练多个模型
优雅的融合设计：带噪声的自适应门控机制简洁有效，通过学习到的软权重动态平衡事件和帧模态的贡献，变异系数正则化防止模态坍塌
伪标签的质量保证：FlexTune 中的时间一致性校准（双向增强 + 轨迹修剪）确保高频伪标签的可靠性，避免自训练中常见的噪声累积问题
实用性强：FlexTune 为离线步骤，不增加推理开销；整体框架在两块 A5000 上一天训练完成，具有良好的可复现性

局限与展望¶

RGB 帧依赖：在极端光照（如完全黑暗）下 RGB 帧质量下降，融合可能反而引入噪声；纯事件模式的 fallback 机制值得探索
伪标签上界：FlexTune 的高频伪标签质量受限于教师模型在低频上的初始性能，存在天然的性能上界
类别范围有限：DSEC 数据集主要包含驾驶场景（车辆、行人），在更多样的目标类别和场景（室内、工业）上的泛化性未验证
计算开销：45.4M 参数量在嵌入式平台上的部署挑战未讨论，实际自动驾驶应用需要更轻量的变体
时间一致性假设：轨迹修剪假设物体运动较为平滑，在极端场景（突然出现的遮挡、急刹车）下可能失效

评分 ⭐¶

维度	评分
创新性	⭐⭐⭐⭐
理论深度	⭐⭐⭐
实验充分度	⭐⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐