Event6D: Event-based Novel Object 6D Pose Tracking¶

会议: CVPR 2026
arXiv: 2603.28045
代码: https://chohoonhee.github.io/Event6D
领域: 3D视觉
关键词: 事件相机, 6D位姿追踪, 新目标泛化, 双模态重建, 合成到真实迁移

一句话总结¶

EventTrack6D 提出事件-深度融合的 6D 位姿追踪框架，通过在任意时间戳重建强度和深度图像来弥补事件相机与深度帧率的差异，在仅合成数据训练的条件下以 120+ FPS 实现了对未见目标的鲁棒追踪。

事件相机提供微秒级延迟，非常适合快速动态场景中的 6D 目标位姿追踪——传统 RGB-D 方案受限于运动模糊和大像素位移。但事件相机的稀疏异步输出与标准位姿估计框架不兼容，且现有事件相机 6D 位姿数据集规模小、运动类型有限。

核心挑战：深度帧率通常远低于事件流的时间分辨率，两者间存在时间间隙。需要在深度帧之间填补密集的光度和几何信息。

输入为事件流+低帧率深度图。双重建模块在任意时间戳重建强度图和深度图 → 得到密集光度+几何线索 → 基于渲染-比较的 6D 位姿追踪。

双模态重建（强度+深度）:
- 功能：从稀疏事件流中在任意时间戳恢复密集的强度和深度图
- 核心思路：以最近的深度测量为条件，利用事件流的时间信息重建两种模态。强度重建从事件的亮度变化中恢复场景外观，深度重建从事件的运动信息中推断几何变化。两个重建在共享的特征空间中进行
- 设计动机：填补深度帧之间的时间间隙，使追踪可以在事件的时间分辨率上运行
大规模合成基准套件:
- 功能：提供训练和评估所需的大规模事件+深度+位姿标注数据
- 核心思路：构建三部分基准：(1) EventBlender6D——大规模合成训练集（495,840 样本，1033 个目标）；(2) 模拟评测集；(3) 真实事件评测集。合成数据涵盖多样的运动模式和目标外观
- 设计动机：现有事件相机 6D 位姿数据集太小（如 YCB-Ev 仅 21 个目标），无法支撑泛化到新目标的训练
新目标泛化能力:
- 功能：无需目标特定训练即可追踪未见过的目标
- 核心思路：仅在合成数据上训练，通过足够多样的目标（1033个）和运动模式学习通用的追踪能力。测试时直接泛化到真实场景的新目标，无需微调
- 设计动机：实际应用中不可能为每个新目标重新训练模型

强度重建损失 + 深度重建损失 + 位姿估计的渲染-比较损失。仅在合成数据上训练，零样本迁移到真实场景。

方法	数据类型	FPS	新目标泛化	快速运动鲁棒性
传统 RGB-D 方法	RGB-D	<30	否	差（运动模糊）
EventTrack6D	事件+深度	120+	是	强

在高动态场景中显著优于传统方法。