Exploiting Temporal State Space Sharing for Video Semantic Segmentation¶
会议: CVPR 2025
arXiv: 2503.20824
代码: https://github.com/Ashesham/TV3S (有)
领域: 语义分割 / 视频语义分割
关键词: 视频语义分割, 状态空间模型, Mamba, 时序特征共享, 高效推理
一句话总结¶
提出 TV3S(Temporal Video State Space Sharing)架构,利用 Mamba 状态空间模型实现跨视频帧的高效时序信息共享,通过独立处理空间 patch 并结合 shifted window 机制实现高度并行化计算,在 VSPW 和 Cityscapes 数据集上以良好的精度-效率平衡超越了现有的 Transformer 和 RNN 方法。
研究背景与动机¶
领域现状:视频语义分割(VSS)需要在帧级分割的基础上利用时序信息提升一致性和准确性。现有方法主要分三类:(1) 光流方法通过估计像素运动来对齐帧间特征,但计算昂贵且在遮挡和突变场景下不准确;(2) 基于 RNN(ConvLSTM)的方法能捕获时序信息,但在长视频序列上存在扩展性和训练稳定性问题;(3) Transformer 方法(如 CFFM、MRCFA)能捕捉全局依赖,但注意力机制的二次复杂度导致内存和计算开销大,通常只能在短时间窗口内工作。
现有痛点:所有现有方法都在以下问题上做出了不同程度的妥协:长视频序列的可扩展性、计算/内存效率、时序一致性的保持。特别是 Transformer 方法虽然在短窗口上效果好,但难以扩展到长视频的全局时序建模,而 RNN 方法虽有递归结构但序列处理效率低。
核心矛盾:长程时序建模能力与计算效率之间的矛盾。需要一种既能高效存储和传播长程时序信息,又不需要高昂注意力计算的架构。
本文目标 设计一种计算高效、支持长视频序列、能同时利用局部和全局时序信息的 VSS 架构。
切入角度:状态空间模型(SSM),特别是 Mamba,具有线性复杂度和高效的长序列建模能力。作者将 Mamba 引入 VSS,但不是简单地在全帧特征上运行 SSM(这会成为瓶颈),而是将特征图分成独立的空间 patch,每个 patch 独立维护自己的隐状态在时间维度上传播,实现高度并行化。
核心 idea:将空间 patch 独立化后用 Mamba SSM 在时间维度上传播隐状态,实现并行化的时序特征共享。
方法详解¶
整体框架¶
TV3S 采用编码器-解码器架构。视频帧 \(\{I_{t-l}, ..., I_t\}\) 先通过图像编码器(MiT 或 Swin)提取空间特征 \(\{E_{t-l}, ..., E_t\}\)。这些特征图依次通过 \(N=4\) 个 TV3S Block 进行时序信息聚合。每个 TV3S Block 包含两个 TSS(Temporal State Space)模块,分别处理未移位和移位后的 patch。最终聚合特征通过线性投影和插值生成分割输出。推理时帧序列化处理,每帧的隐状态存储下来传递给后续帧。
关键设计¶
-
空间 Patch 独立处理与 SSM 时序聚合:
- 功能:以 patch 为单位独立地在时间维度上传播和聚合信息
- 核心思路:将编码特征图 \(E_t\) 分割为 \(w \times w\) 的不重叠 patch(\(w=20\)),每个 patch 展平为一维序列。每个 TSS 模块内部是一个 Mamba SSM:隐状态 \(H_t^{i,j}\) 根据当前 patch 输入 \(\hat{P}_t^{i,j}\) 和前一帧隐状态 \(H_{t-1}^{i,j}\) 更新。状态转移方程为 \(H_t^{i,j} = f_A(\Delta, A_s)H_{t-1}^{i,j} + f_B(\Delta, A_s, B_s)\hat{P}_t^{i,j}\),输出 \(F_t^{i,j} = C_s H_t^{i,j}\)。关键优势:所有 patch 的 SSM 处理完全独立可并行化,总共只需维护 \(\frac{W}{w} \times \frac{H}{w}\) 个隐状态。
- 设计动机:不同于 VisionMamba 等将整张特征图展平为一个长序列处理(导致空间和时间维度纠缠),独立 patch 处理有两大优势:(1) 编码器已经充分学习空间信息,patch 处理只需关注时间维度;(2) 相邻帧之间的变化在 patch 级别很小,非常适合 SSM 的增量更新特性。
-
Shifted Window 机制:
- 功能:解决独立 patch 处理带来的边界效应,增强 patch 之间的空间上下文交互
- 核心思路:受 Swin Transformer 启发,每个 TV3S Block 的第二个 TSS 模块处理移位后的特征图。移位参数 \(s = w/2 = 10\),使得原来相邻 patch 的边界区域在移位后被整合到同一个 patch 中。边缘产生的不完整块被进一步细分为更小的子块处理。这样两个 TSS 模块(unshifted + shifted)的组合就能同时捕获 patch 内部和 patch 边界处的时序动态。
- 设计动机:纯独立 patch 处理会忽略 patch 边界处的运动信息(如物体刚好跨越 patch 边界的情况)。Shifted window 是一种零开销的方式来扩展感受野。
-
双损失训练策略:
- 功能:同时保证空间特征质量和时序聚合效果
- 核心思路:总损失 \(\mathcal{L} = \lambda \sum_{k} \mathcal{L}_{CE}(\hat{O}_{t-k}, M_{t-k}) + \mathcal{L}_{CE}(O_t, M_t)\),其中 \(\hat{O}_{t-k}\) 是从编码器直接输出的中间预测(不含时序信息),\(O_t\) 是经过 TV3S Block 后的最终预测。\(\lambda = 0.5\) 权衡两部分。训练时输入 4 帧,间隔为 \(\{t-9, t-6, t-3, t\}\)。
- 设计动机:中间损失确保编码器学到高质量的空间表示(作为 TV3S 输入的基础),最终损失优化时序聚合。如果只有最终损失,编码器可能退化为只为时序模块提供简单特征。
损失函数 / 训练策略¶
加权交叉熵损失。AdamW 优化器,"poly" 学习率策略,初始学习率 \(6 \times 10^{-5}\)。训练输入 4 帧(间隔 3 帧),推理时可处理任意长度视频(帧序列化,隐状态持续传递)。
实验关键数据¶
主实验(VSPW 数据集)¶
| 方法 | Backbone | mIoU↑ | mVC8↑ | mVC16↑ | GFLOPs↓ | FPS↑ |
|---|---|---|---|---|---|---|
| SegFormer | MiT-B2 | 43.9 | 86.0 | 81.2 | 100.8 | 16.2 |
| CFFM | MiT-B2 | 44.9 | 89.8 | 85.8 | 143.2 | 10.1 |
| MRCFA | MiT-B2 | 45.3 | 90.3 | 86.2 | 127.9 | 10.7 |
| TV3S | MiT-B2 | 46.3 | 91.5 | 88.35 | 53.9 | 21.9 |
TV3S 以 MiT-B2 backbone 在 mIoU 上超越 MRCFA 1.0,mVC16 超越 2.15,GFLOPs 仅为 MRCFA 的 42%,FPS 翻倍。
消融实验¶
| 配置 | mIoU↑ | mVC8↑ | 说明 |
|---|---|---|---|
| 无 TV3S(SegFormer baseline) | 36.5 | 84.7 | 纯帧级分割 |
| TV3S (1 block) | 38.4 | 89.2 | 单 block 时序增强 |
| TV3S (4 blocks) | 40.0 | 90.7 | 标准配置 |
| TV3S 无 shift | 39.1 | 89.6 | 去掉 shifted window |
| TV3S 有 shift | 40.0 | 90.7 | 完整模型 |
关键发现¶
- TV3S 在所有 backbone(MiT-B1/B2/B5、Swin-T/S)上均取得最佳 mIoU 和 mVC,且 GFLOPs 显著低于 Transformer 方法
- 时序一致性(mVC16)提升尤为显著:MiT-B2 上 88.35 vs MRCFA 的 86.2,说明 SSM 的隐状态传递机制非常适合时序一致性建模
- Shifted window 对 mIoU 贡献 +0.9,对 mVC +1.1,证明边界处的时序信息确实重要
- 在 Swin-S backbone 上 mIoU 达到 50.6(远超 MPVSS 的 40.4),GFLOPs 仅 94.1(MPVSS 47.3 但准确率低 10 个点)
- 推理时处理完整视频序列(利用全部历史帧的隐状态),这是 Transformer 方法因注意力窗口限制无法做到的
亮点与洞察¶
- SSM 在视频理解中的范式优势:与 Transformer 的有限注意力窗口相比,SSM 通过隐状态可以理论上无限地传播时序信息,且复杂度恒定。这使得推理时可以利用视频从第一帧开始的所有历史信息,是一个本质性的优势。
- 空间-时间解耦的高效设计:不像 VideoMamba 将整个视频张量展平为一个序列,TV3S 先让编码器处理空间特征,然后 SSM 只负责时间维度的 patch 独立聚合,极大降低了计算量。
- 训练-推理的灵活性:训练只用 4 帧但推理可处理任意长序列,隐状态的持续传递机制天然支持流式处理,这对实际视频分析应用(如自动驾驶、视频监控)非常实用。
局限与展望¶
- 隐状态维度和 patch 大小 \(w\) 的选择对性能有影响,当前固定为 \(w=20\),未做自适应调整
- 仅在室外场景(VSPW、Cityscapes)验证,对于动态变化剧烈的场景(如快速运动、大遮挡)的表现未专门分析
- SSM 的选择性门控机制没有被详细可视化分析——模型学到了怎样的时序传播模式不透明
- FPS 虽然比 Transformer 方法高,但仍未达到实时水平(如 MiT-B5 backbone 只有 14 FPS)
- 训练时固定 3 帧间隔,对于帧率差异大的视频可能需要调整
相关工作与启发¶
- vs CFFM/MRCFA: 这些 Transformer 方法用多分辨率交叉帧注意力,计算量大(127-143 GFLOPs),TV3S 用 SSM 以 54 GFLOPs 达到更好效果
- vs MPVSS: MPVSS 用 memory-augmented transformer,GFLOPs 低但精度也低;TV3S 在精度和效率上均更优
- vs VideoMamba: VideoMamba 用于视频分类,将整个时空序列展平处理,不适合密集分割。TV3S 的 patch 独立处理方式更适合像素级任务
- vs VM-RNN: 同样结合 Mamba 和时序建模,但 VM-RNN 用 LSTM 做时序而 TV3S 用 SSM 直接做时序,架构更纯粹
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将 Mamba SSM 以 patch 独立方式应用于视频语义分割,shifted window 配合巧妙
- 实验充分度: ⭐⭐⭐⭐ 多 backbone 验证、消融完整,缺少对长视频效果的深入分析
- 写作质量: ⭐⭐⭐⭐ 架构图清晰,但部分公式排版可以更规范
- 价值: ⭐⭐⭐⭐ 为 VSS 提供了一个高效的新范式,SSM 在视频密集预测中的潜力值得进一步探索
相关论文¶
- [CVPR 2025] DefMamba: Deformable Visual State Space Model
- [CVPR 2026] RS-SSM: Refining Forgotten Specifics in State Space Model for Video Semantic Segmentation
- [CVPR 2025] MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation
- [CVPR 2025] GroupMamba: Efficient Group-Based Visual State Space Model
- [CVPR 2025] 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification