MambaSeg: Harnessing Mamba for Accurate and Efficient Image-Event Semantic Segmentation¶

会议: AAAI 2026
arXiv: 2512.24243
代码: https://github.com/CQU-UISC/MambaSeg (有)
领域: 语义分割
关键词: 事件相机, 多模态融合, Mamba/SSM, 语义分割, 时空交互

一句话总结¶

提出 MambaSeg，用双分支并行 Mamba 编码器分别处理 RGB 图像和事件流，通过空间-时间双维度交互模块 (DDIM) 实现细粒度跨模态融合，在 DDD17 和 DSEC 数据集上以 25.44M 参数取得 77.56%/75.10% mIoU 的 SOTA，效率远优于 Transformer 方案。

背景与动机¶

帧相机局限：传统 RGB 语义分割在高速运动、低光照、高动态范围场景下因运动模糊和延迟严重退化
事件相机的互补性：事件相机具有微秒级时间分辨率和高动态范围，但缺少颜色和纹理信息，单独使用不足以完成密集预测
现有融合方法的问题：(1) Transformer-based 方法（CMX、EISNet）虽有效但计算开销大（自注意力二次复杂度）；(2) 多数方法只做空间融合，忽视了事件流固有的时间动态特性，导致跨模态对齐不充分、语义不一致

核心问题¶

如何在保持低计算开销的前提下，同时沿空间和时间两个维度进行 RGB-Event 跨模态融合，减少跨模态歧义？

方法详解¶

整体框架¶

双分支架构：两条并行的 VMamba-T 编码器（预训练于 ImageNet-1K）分别处理图像和 Voxel Grid 化的事件流。四个尺度的 VSS Block 提取多尺度特征，每个尺度嵌入 DDIM 模块做跨模态交互，融合后的特征反馈回各自编码器用于下一阶段。最后用 SegFormer 的 MLP 解码器生成分割结果。

事件流预处理：原始异步事件 \((x_i, y_i, t_i, p_i)\) 被分割到 \(T=10\) 个时间 bin 中积累为 Voxel Grid \(E \in \mathbb{R}^{T \times H \times W}\)。

关键设计¶

CSIM (Cross-Spatial Interaction Module)：
跨模态空间注意力：对事件、图像、及浅层融合特征分别做 AvgPool 和 MaxPool（共 6 张空间图），拼接后经两层卷积+sigmoid 生成三组空间注意力权重，交叉应用到各模态（事件特征乘以图像注意力权重，反之亦然）
SS2D 空间细化：将拼接特征展开为四个方向序列，分别由独立 S6 Block 处理，捕获多方向长距离依赖后重组为 2D 特征
模态感知残差更新：分离回各模态后施加空间注意力+残差连接，保留模态特异性
CTIM (Cross-Temporal Interaction Module)：
跨模态时间注意力：将事件和图像特征沿时间维度交替插入（interleave），形成 \(2T \times H \times W\) 的时间序列，经全局 MaxPool/AvgPool + 1×1 卷积生成时间注意力权重 \(W_F^T \in \mathbb{R}^{T \times 1 \times 1}\)，同时调制两个模态
双向时间选择性扫描 (BTSS)：拼接后展平为时间序列，前向和反向各由一个 S6 Block 处理，聚合过去和未来的时间上下文后求和重塑
模态感知残差更新：同 CSIM，分离+时间注意力+残差
DDIM = CSIM + CTIM：两个模块串联使用，在每个编码器尺度都进行空间+时间双维度融合

损失函数 / 训练策略¶

损失函数：标准交叉熵
优化器：AdamW，训练 60 epochs
DDD17：lr=2e-4, batch_size=12；DSEC：lr=6e-5, batch_size=4
数据增强：随机裁剪、水平翻转、随机缩放
单卡 RTX 4090D 训练

实验关键数据¶

主要对比 (Table 1)¶

方法	类型	Backbone	DDD17 mIoU	DSEC mIoU
SegFormer	纯图像	Transformer	71.05%	71.99%
EV-SegNet	纯事件	CNN	54.81%	51.76%
CMX	融合	Transformer	71.88%	72.42%
CMNeXt	融合	Transformer	72.67%	72.54%
EISNet	融合	Transformer	75.03%	73.07%
MambaSeg	融合	Mamba	77.56%	75.10%

对比 SOTA EISNet：DDD17 +2.53%，DSEC +2.03%。

效率对比 (Table 2, DDD17)¶

方法	参数量 (M)	MACs (G)	mIoU
CMX	66.56	16.29	71.88%
EISNet	34.39	17.30	75.03%
MambaSeg	25.44	15.59	77.56%

参数量仅为 EISNet 的 74%，MACs 也更低，但 mIoU 高 2.53%。

消融实验要点¶

CSIM vs CTIM（Table 4）：baseline 74.38% → +CTIM 76.20% → +CSIM 76.32% → 两者结合 77.56%，说明空间和时间融合互补
DDIM vs 其他融合方法（Table 3）：Element-wise Add 74.38%，FFM 76.44%，MRFM 76.19%，CSF 76.65%，DDIM 77.56%
CSIM 子模块（Table 5）：CSA、SS2D、SA 三者缺一不可，完整 CSIM 最优
CTIM 子模块（Table 6）：CTA、BTSS、TA 三者同样互补，完整 CTIM 最优

亮点¶

首次将 Mamba 引入 RGB-Event 多模态融合分割，利用 SSM 的线性复杂度替代 Transformer 的二次复杂度，效率提升显著
空间-时间双维度融合设计合理且新颖：CSIM 利用事件的边缘优势+图像的纹理优势做空间互补，CTIM 利用 Mamba 擅长的序列建模做时间对齐，二者互补
定性结果显示 MambaSeg 在小目标（行人、交通标志）和复杂光照下明显优于 EISNet
消融实验设计很系统，从模块级到子组件级都有详细分析

局限性 / 可改进方向¶

数据集单一：仅在自动驾驶场景的 DDD17（6类）和 DSEC（11类）上验证，类别少、场景单一，泛化能力未知
事件表示局限：采用固定时间窗口的 Voxel Grid，可能丢失事件流的精细时间信息；可考虑自适应时间分段或直接处理异步事件
编码器未联合训练：两条分支用相同的预训练 VMamba-T 初始化，事件分支用 ImageNet 预训练是否最优有待验证
仅使用交叉熵损失：未探索 Dice Loss、Lovász Loss 等对分割更友好的损失
未在更大规模场景（如城市场景、室内场景）和更多模态（深度、LiDAR）上验证

与相关工作的对比¶

vs CMX/CMNeXt：同为多模态融合但用 Transformer 做 cross-attention，计算量大（66M/58M 参数）；MambaSeg 用 Mamba 替代，参数量降至 25M 且精度更高
vs EISNet：EISNet 用门控注意力+渐进重校准做自适应对齐，侧重空间；MambaSeg 增加了时间维度融合，且效率更高
vs Hybrid-Seg：CNN+SNN 混合架构，参数效率好但精度差距大（67.31% vs 77.56% on DDD17）
vs VM-UNet 等医学 Mamba 分割：VM-UNet 是单模态 Mamba 分割，MambaSeg 是多模态双分支+跨模态交互

启发与关联¶

Mamba 在多模态融合中的潜力：本文验证了 Mamba 在 RGB-Event 融合中的有效性，可推广到 RGB-Depth、RGB-Thermal、RGB-LiDAR 等其他多模态组合
时间维度建模：CTIM 的双向时间选择性扫描思路可用于视频分割等需要时间建模的任务
与 ideas/ 中 Mamba 相关方向的关联：
ideas/model_compression/20260317_mamba_light_medical_seg.md：全 Mamba 轻量医学分割方向可参考本文的双分支设计
ideas/video_understanding/20260317_human_video_mamba.md：Mamba 视频理解方向可借鉴本文的 CTIM 时间融合模块
本文的 DDIM 空间-时间双维度融合思路可推广到更多需要多源异构数据融合的场景

评分¶

新颖性: ⭐⭐⭐⭐ Mamba 引入 RGB-Event 融合是新颖的，DDIM 的空间-时间双维度设计有创新，但各子模块（池化+注意力、SS2D）相对常规
实验充分度: ⭐⭐⭐⭐ 消融实验非常系统（模块级+子组件级+融合方法对比+效率对比），但仅两个驾驶数据集，缺少其他场景验证
写作质量: ⭐⭐⭐⭐ 结构清晰，图表规范，公式推导完整，但 Related Work 偏简略
价值: ⭐⭐⭐⭐ 在 RGB-Event 分割这个小方向上有明确推进，效率优势明显，但受限于事件相机的实际应用范围