跳转至

EventGPT: Event Stream Understanding with Multimodal Large Language Models

会议: CVPR 2025
arXiv: 2412.00832
代码: https://github.com/EventGPT (待确认)
领域: 多模态VLM
关键词: 事件相机、MLLM、时空聚合、三阶段训练、事件-语言对齐

一句话总结

首个专为事件相机流设计的 MLLM,通过三阶段渐进训练范式(视觉-语言对齐→事件-语言对齐→指令微调)跨越异步事件数据与语言之间的巨大领域差距,在事件场景描述和 VQA 上大幅超越通用 MLLM。

研究背景与动机

领域现状:事件相机以异步、高时间分辨率的方式记录亮度变化,在高速运动和极端光照条件下有独特优势。但事件数据的表示方式与传统 RGB 图像差异很大,现有 MLLM(LLaVA、Qwen2-VL 等)直接处理事件数据效果很差。

现有痛点:通用 MLLM 在事件数据上的详细描述得分仅 1.5-2.4/5.0(满分 5 分),因为它们预训练在 RGB 图像-文本对上,无法理解事件流的时空结构。事件数据缺少配对的语言标注数据集,无法直接训练事件-语言模型。

核心矛盾:事件相机数据和自然语言之间存在巨大的模态差距——事件是异步的稀疏脉冲信号,与 MLLM 预训练时见过的任何视觉数据都不同。如何在极少标注数据下桥接这一差距?

本文目标 设计事件专用的 MLLM 架构和训练策略,使其能理解事件流并以自然语言进行场景描述、推理和问答。

切入角度:利用 RGB 图像作为中间桥梁——先在 RGB 图文对上对齐视觉-语言空间(复用已有数据),再在合成事件-文本对上对齐事件特征到同一空间,最后在真实世界事件数据上微调。

核心 idea:通过"图像→事件→指令"三阶段渐进训练和时空聚合模块,将事件相机数据与语言模型的表征空间对齐。

方法详解

整体框架

事件流被分为 \(T\) 个时间窗口构成事件张量,经 OpenCLIP ViT-L/14 编码为 \(\mathcal{Z} \in \mathbb{R}^{T \times S \times D}\) 的时空特征。时空聚合器分别沿时间和空间维度做平均池化再与最大池化拼接,得到融合表征。经线性投影层和事件-语言适配器映射到 LLM(Vicuna-v1.5)的输入空间。

关键设计

  1. 时空聚合器(Spatio-Temporal Aggregator):

    • 功能:从多时间窗口的事件特征中提取时空联合表征
    • 核心思路:对 \(\mathcal{Z} \in \mathbb{R}^{T \times S \times D}\) 分别沿时间维度平均池化得到 \(\mathcal{Z}_T^{avg} \in \mathbb{R}^{S \times D}\)(聚合时间信息保留空间结构),沿空间维度平均池化得到 \(\mathcal{Z}_S^{avg} \in \mathbb{R}^{T \times D}\)(聚合空间信息保留时间结构),再与对应的最大池化表征拼接为 \(\overline{\mathcal{Z}} \in \mathbb{R}^{(T+S) \times D}\)
    • 设计动机:事件数据的独特性在于高时间分辨率,需要同时建模空间特征(什么在变化)和时间特征(如何变化)。独立的双路池化比直接展平保留了更多结构信息
  2. 三阶段渐进训练范式:

    • 功能:逐步跨越 RGB→事件→语言的模态差距
    • 核心思路:Stage 1(视觉-语言对齐):用 LLaVA-Pretrain 558K RGB 图文对训练线性投影层,编码器和 LLM 冻结。Stage 2(事件-语言对齐):用 N-ImageNet-Chat 100 万合成事件-文本对训练时空聚合器 + 事件-语言适配器,其余冻结。Stage 3(指令微调):用 Event-Chat 12 万真实世界标注开放所有参数微调
    • 设计动机:直接在事件-文本对上训练效果差,因为模态间差距过大。以 RGB 为中间桥梁、以合成数据为预训练、以真实数据为微调,逐步缩小差距
  3. 事件-语言适配器(Event-Language Adapter):

    • 功能:在线性投影层之外提供额外的跨模态对齐
    • 核心思路:一个线性层,在 Stage 2 中引入,将事件特征进一步映射到 LLM 的表征空间。消融实验显示适配器的贡献(+3.24% DC)大于时空聚合器(+2.35% DC),表明跨模态对齐比时序建模更难
    • 设计动机:事件数据与 RGB 的分布差异大,仅靠最初为 RGB 训练的投影层不足以对齐,需要额外适配层

损失函数 / 训练策略

标准的 next-token prediction 交叉熵损失。数据集方面构建了两个新数据集:N-ImageNet-Chat(100 万合成事件-文本对,从 N-ImageNet 事件仿真数据生成)和 Event-Chat(12 万真实世界标注,来自 DSEC 和 E2VID 的驾驶场景数据)。

实验关键数据

主实验

模型 LLM N-ImageNet DC/CR/VQA Event-Chat DC/CR/VQA
LLaVA-7B Vicuna 1.54/1.07/1.88 2.20/4.04/3.26
Qwen2-VL-7B Qwen2 1.74/1.46/1.91 2.38/4.02/2.91
InternVL2-8B InternLM 1.51/1.87/2.08 2.37/4.00/3.71
EventGPT-7B Vicuna 2.39/2.57/2.23 3.52/4.09/4.29
EventGPT-13B Vicuna 2.41/2.81/2.40 3.40/4.13/4.26

消融实验

配置 DC CR VQA 说明
Baseline (无聚合器无适配器) 3.40 3.97 4.15 基线
+时空聚合器 3.48 4.02 4.20 +2.35%
+事件-语言适配器 3.51 4.05 4.25 +3.24%
+两者 (完整) 3.52 4.09 4.29 +3.53%

关键发现

  • 通用 MLLM 在事件数据上表现极差:最好的 InternVL2-8B 在 Event-Chat 的详细描述上也仅 2.37/5.0,EventGPT 达到 3.52/5.0(+48%)
  • 事件-语言适配器比时空聚合器更重要:适配器贡献 +3.24%,聚合器 +2.35%,表明跨模态对齐是更大的瓶颈
  • 时间窗口数 \(N_w=5\) 最优:过少(3)丢失时间细节,过多(>7)导致每窗分布稀疏
  • 下游迁移能力强:EventGPT 生成的文字描述可直接驱动 GroundingDINO 做目标检测和 GroundedSAM 做实例分割

亮点与洞察

  • "图像作为桥梁"的训练策略巧妙地解决了事件数据缺乏语言标注的问题,这种渐进对齐的思路可以推广到其他新兴传感器数据(如雷达、触觉)与语言的对齐
  • 新数据集的构建:N-ImageNet-Chat(100 万)和 Event-Chat(12 万)为事件相机社区提供了首个大规模语言标注数据集
  • 实用价值:事件相机在自动驾驶(隧道、夜间)和高速运动场景有不可替代的优势,EventGPT 让这些场景也能使用自然语言交互

局限与展望

  • 事件编码器使用 RGB 预训练的 OpenCLIP,事件-RGB 领域差异可能限制了特征质量,可以探索事件专用预训练
  • 时空聚合器使用简单的平均/最大池化,更复杂的时序建模(如 Mamba、temporal transformer)可能更有效
  • Event-Chat 主要来自驾驶场景,对室内、工业、体育等场景的泛化未验证
  • 评估指标(1-5 分 GPT 评分)的可靠性和一致性需要更多验证

相关工作与启发

  • vs E2VID + LLaVA 管线:将事件转为 RGB 再用 MLLM 的两阶段方法会丢失事件数据的高时间分辨率优势,EventGPT 端到端处理保留了时间信息
  • vs 事件专用视觉模型(如事件目标检测、光流估计):这些任务特定模型无法泛化到新任务,EventGPT 通过语言接口实现了开放任务能力
  • vs 通用 MLLM:实验证明直接使用通用 MLLM 处理事件数据几乎不可行,领域差距太大必须专门训练

评分

  • 新颖性: ⭐⭐⭐⭐ 首个事件相机 MLLM,填补了重要空白。但方法组件(聚合器、适配器)本身较常规
  • 实验充分度: ⭐⭐⭐ 与通用 MLLM 的对比清晰,但缺少与事件专用方法在下游任务上的定量对比
  • 写作质量: ⭐⭐⭐⭐ 三阶段训练的动机讲解清楚,数据集构建描述详细
  • 价值: ⭐⭐⭐⭐ 对事件相机社区有开拓性意义,数据集贡献重要

相关论文