跳转至

SEAL: Segment Any Events with Language

会议: ICLR 2026
arXiv: 2601.23159
代码: https://0nandon.github.io/SEAL(即将公开)
领域: autonomous_driving, event_camera, segmentation
关键词: 事件相机, 开放词汇实例分割, SAM, CLIP, 多模态融合, 无标注训练

一句话总结

首次提出开放词汇事件实例分割(OV-EIS)任务,设计 SEAL 框架通过多模态层次语义引导(MHSG)和轻量多模态融合网络,在仅使用事件-图像对(无密集标注)的情况下,实现事件流的多粒度(实例级+部件级)语义分割,大幅领先所有基线方法且推理速度最快。

研究背景与动机

  1. 事件相机优势:事件相机具有极高时间分辨率、超低延迟、高动态范围和低功耗,在低光照、过曝等传统相机失效的场景中仍能提供有效信息
  2. 现有事件分割局限:已有的事件语义分割(ESS)方法局限于闭集词汇表,无法识别训练类别之外的物体,且只能做语义分割而无法区分同类不同实例
  3. 开放词汇事件理解尚处起步:OpenESS 仅实现了开放词汇语义分割,无法做实例级识别;EventSAM 实现了事件实例分割但不具备语义识别能力
  4. 缺乏评测基准:此前不存在用于事件实例分割的多语义基准数据集
  5. 效率需求:事件相机常部署在边缘设备上,需要参数高效、推理快速的模型设计
  6. 领域鸿沟问题:直接将图像域预训练模型应用于事件流时,即使通过 E2VID 重建图像,由于噪声和伪影仍存在巨大的域差距

方法详解

整体框架

SEAL 属于无标注域适应(AF-DA)类别: - 训练时:仅使用事件-图像对 \((I^{evt}, I^{img})\),不需要任何密集事件标注 - 推理时:仅输入事件嵌入 \(I^{evt}\),根据用户提供的视觉提示(点/框)生成 mask 及类别预测 - 核心由两部分组成:MHSG 模块(提供多模态层次语义监督)和多模态融合网络(轻量化 mask 分类器)

关键设计 1:多模态层次语义引导(MHSG)

层次视觉引导: - 利用 SAM 对配对图像生成三层粒度的分割图:语义级 \(M_s^{img}\)、实例级 \(M_i^{img}\)、部件级 \(M_p^{img}\) - 通过 CLIP 视觉编码器提取像素级特征,再 RoI 池化得到各层 mask 的视觉特征

层次文本引导: - 使用 LLaMA-based MLLM 为每个 mask 生成丰富文本描述 - 通过 CLIP 文本编码器编码,构成层次文本引导信号 - 与 OpenESS 不同,不依赖预定义类别名,而是用 MLLM 生成丰富多样的词汇

关键设计 2:多模态融合网络(三组件)

① Backbone Feature Enhancer(骨干特征增强器): - 在 EventSAM 骨干特征上叠加 6 层多模态融合模块(self-attention + cross-attention + FFN) - 训练时用文本引导 \(M_l^{text}\) 作为 cross-attention 的 key/value - 推理时改用数据集类名或用户自定义语言输入 - 通过 RoI-Align 从语言融合特征中池化得到 mask 特征

② Spatial Encoding(空间编码): - 解决两大问题:死 mask(小物体的 mask 下采样后消失导致零向量)和语义冲突(低分辨率特征图上不同语义 mask 投射到同一区域) - 利用 SAM mask decoder 的 mask token 编码形状和位置等空间先验 - 将空间特征 \(G_l^{evt}\) 与语义特征 \(S_l^{evt}\) 拼接后投影:\(M_l^{evt} = \text{proj}(\text{concat}(G_l^{evt}, S_l^{evt}))\)

③ Mask Feature Enhancer(mask 特征增强器): - 通过 masked cross-attention 层进一步增强 mask 特征中的语义和空间先验 - 用语言融合骨干特征(含位置编码)作为 key/value,约束注意力聚焦于前景区域

训练策略

  • 两阶段训练:Stage 1 训练 EventSAM(遵循原始方案);Stage 2 冻结 EventSAM,只训练融合网络
  • 训练数据:Mixed-24K(合并 DDD17-Seg 和 DSEC-Semantic 训练集,共 24,032 对)
  • 损失函数:余弦相似度蒸馏损失,将事件 mask 特征同时与视觉引导和文本引导对齐:
\[\mathcal{L}_{distill} = \sum_{l \in \{s,i,p\}} \frac{1}{K_l}(1 - \cos(\hat{M}_l^{evt}, M_l^{img})) + \sum_{l \in \{s,i,p\}} \frac{1}{K_l}(1 - \cos(\hat{M}_l^{evt}, M_l^{text}))\]

实验关键数据

四个评测基准

基准 来源 测试规模 分辨率 类别数 评测维度
DDD17-Ins DDD17-Seg 3,890 352×200 6 粗粒度实例分割
DSEC11-Ins DSEC-Semantic 2,809 640×440 11 中粒度实例分割
DSEC19-Ins DSEC-Semantic 2,809 640×440 19 细粒度实例分割
DSEC-Part DSEC-Semantic 2,809 640×440 9 (5+4) 部件级分割

主实验结果(Table 1: Closed-Set 实例分割,Box prompt AP)

方法 类别 DDD17-Ins AP DSEC11-Ins AP DSEC19-Ins AP 推理时间(ms) 参数量(M)
OVSAM AR-CDG 21.6 22.2 11.6 102.27 314.7
OpenSeg Hybrid 35.0 23.6 13.0 427.01 228.4
MaskCLIP++ Hybrid 32.8 25.4 14.1 394.61 301.7
frame2recon AF-DA 34.8 21.2 10.5 278.35 141.7
frame2voxel AF-DA 33.6 21.3 11.3 88.19 109.1
SEAL (Ours) AF-DA 38.2 28.8 14.8 22.28 99.1
提升 - +3.2 +3.4 +0.7 - -

部件分割结果(Table 2: DSEC-Part)

方法 Point AP Box AP
VLPart 12.9 16.1
SEAL 13.6 18.3
提升 +0.7 +2.2

消融实验 —— 层次语义引导(Table 3)

  • 去掉 part 级引导 → 部件分割 AP 下降(DSEC-Part Box: 14.4~15.4 vs 18.3)
  • 去掉 instance/semantic 级引导 → 实例分割 AP 下降
  • 三层粒度全用效果最佳,验证层次引导的必要性

消融实验 —— 模型架构(Table 5)

Fusion SE MFE DDD17 Box AP DSEC-Part Box AP
35.5 14.9
35.7 15.7
38.1 16.6
38.2 18.3

效率优势

  • SEAL 推理时间 22.28ms,远低于所有基线(次优 frame2voxel 88.19ms,快 ~4×
  • 参数量 99.1M,是最参数高效的方案(次优 frame2spike 95.9M 但性能差很多)
  • 单骨干架构避免了基线方法需要两个不同 backbone(mask 生成 + 分类)的冗余

亮点与洞察

  1. 首次定义 OV-EIS 任务:将开放词汇事件理解从语义级推进到实例级,填补了研究空白
  2. 层次语义引导设计精巧:利用 SAM 内在的三层 mask 机制构建 part/instance/semantic 三级粒度监督,思路自然且有效
  3. 无标注训练框架:仅需事件-图像对,不需要任何人工密集标注,通过 CLIP + MLLM 自动生成监督信号
  4. 效率-性能双优:推理速度比最快基线快 4 倍,参数量最小,同时 AP 全面最高——非常适合事件相机的低功耗边缘部署场景
  5. 空间编码模块解决死 mask 和语义冲突:通过引入 SAM mask token 的空间先验补偿语义特征,UMAP 可视化清晰展示了特征空间的改善
  6. 自建四个评测基准:覆盖标签粒度(6/11/19 类)和语义粒度(实例/部件),为后续研究提供了完整评测体系

局限性

  1. 依赖事件-图像配对数据:训练仍需时间同步的事件-图像对,限制了在纯事件数据上的应用
  2. 仍需人工视觉提示:推理时需要用户提供点/框提示,SEAL++ 变体虽可免提示但仅在附录中简要提及
  3. 基准局限:四个基准均来自驾驶场景(DDD17/DSEC),缺乏室内、工业等多样场景的验证
  4. 类别数有限:最多 19 类的闭集评测,尚未展示真正的大规模开放词汇能力
  5. E2VID 重建质量影响:MHSG 层次引导依赖配对图像质量,在极端事件条件下图像可能也不理想
  6. 两阶段训练:需先训练 EventSAM 再训练融合网络,训练流程相对复杂

相关工作

方向 代表工作 与本文关系
事件语义分割 EV-SegNet, ESS, HALSIE, HMNet 前置工作,仅做语义分割
事件实例分割 EventSAM 本文基础模型,仅做类别无关分割
开放词汇事件理解 OpenESS, EventCLIP, EventBind 仅语义级,本文推进到实例级
图像开放词汇分割 CLIP, MaskCLIP, OpenSeg, OVSeg 作为基线的 mask 分类器
SAM 及其变体 SAM, OVSAM, Mask-Adapter 提供空间先验和基线对比

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次定义 OV-EIS 任务,MHSG 层次引导设计原创且有效
  • 实验充分度: ⭐⭐⭐⭐ — 4 个基准、11 种基线对比、3 组消融实验,可视化分析到位
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,问题定义严谨,动机阐述充分
  • 价值: ⭐⭐⭐⭐ — 为事件视觉的开放世界理解开辟了新方向,框架高效实用