Exploiting Temporal State Space Sharing for Video Semantic Segmentation¶

会议: CVPR 2025
arXiv: 2503.20824
代码: https://github.com/Ashesham/TV3S (有)
领域: 语义分割 / 视频语义分割
关键词: 视频语义分割, 状态空间模型, Mamba, 时序特征共享, 高效推理

一句话总结¶

提出 TV3S（Temporal Video State Space Sharing）架构，利用 Mamba 状态空间模型实现跨视频帧的高效时序信息共享，通过独立处理空间 patch 并结合 shifted window 机制实现高度并行化计算，在 VSPW 和 Cityscapes 数据集上以良好的精度-效率平衡超越了现有的 Transformer 和 RNN 方法。

研究背景与动机¶

领域现状：视频语义分割（VSS）需要在帧级分割的基础上利用时序信息提升一致性和准确性。现有方法主要分三类：(1) 光流方法通过估计像素运动来对齐帧间特征，但计算昂贵且在遮挡和突变场景下不准确；(2) 基于 RNN（ConvLSTM）的方法能捕获时序信息，但在长视频序列上存在扩展性和训练稳定性问题；(3) Transformer 方法（如 CFFM、MRCFA）能捕捉全局依赖，但注意力机制的二次复杂度导致内存和计算开销大，通常只能在短时间窗口内工作。

现有痛点：所有现有方法都在以下问题上做出了不同程度的妥协：长视频序列的可扩展性、计算/内存效率、时序一致性的保持。特别是 Transformer 方法虽然在短窗口上效果好，但难以扩展到长视频的全局时序建模，而 RNN 方法虽有递归结构但序列处理效率低。

核心矛盾：长程时序建模能力与计算效率之间的矛盾。需要一种既能高效存储和传播长程时序信息，又不需要高昂注意力计算的架构。

本文目标 设计一种计算高效、支持长视频序列、能同时利用局部和全局时序信息的 VSS 架构。

切入角度：状态空间模型（SSM），特别是 Mamba，具有线性复杂度和高效的长序列建模能力。作者将 Mamba 引入 VSS，但不是简单地在全帧特征上运行 SSM（这会成为瓶颈），而是将特征图分成独立的空间 patch，每个 patch 独立维护自己的隐状态在时间维度上传播，实现高度并行化。

核心 idea：将空间 patch 独立化后用 Mamba SSM 在时间维度上传播隐状态，实现并行化的时序特征共享。

方法详解¶

整体框架¶

TV3S 采用编码器-解码器架构。视频帧 \(\{I_{t-l}, ..., I_t\}\) 先通过图像编码器（MiT 或 Swin）提取空间特征 \(\{E_{t-l}, ..., E_t\}\)。这些特征图依次通过 \(N=4\) 个 TV3S Block 进行时序信息聚合。每个 TV3S Block 包含两个 TSS（Temporal State Space）模块，分别处理未移位和移位后的 patch。最终聚合特征通过线性投影和插值生成分割输出。推理时帧序列化处理，每帧的隐状态存储下来传递给后续帧。

关键设计¶

空间 Patch 独立处理与 SSM 时序聚合:
- 功能：以 patch 为单位独立地在时间维度上传播和聚合信息
- 核心思路：将编码特征图 \(E_t\) 分割为 \(w \times w\) 的不重叠 patch（\(w=20\)），每个 patch 展平为一维序列。每个 TSS 模块内部是一个 Mamba SSM：隐状态 \(H_t^{i,j}\) 根据当前 patch 输入 \(\hat{P}_t^{i,j}\) 和前一帧隐状态 \(H_{t-1}^{i,j}\) 更新。状态转移方程为 \(H_t^{i,j} = f_A(\Delta, A_s)H_{t-1}^{i,j} + f_B(\Delta, A_s, B_s)\hat{P}_t^{i,j}\)，输出 \(F_t^{i,j} = C_s H_t^{i,j}\)。关键优势：所有 patch 的 SSM 处理完全独立可并行化，总共只需维护 \(\frac{W}{w} \times \frac{H}{w}\) 个隐状态。
- 设计动机：不同于 VisionMamba 等将整张特征图展平为一个长序列处理（导致空间和时间维度纠缠），独立 patch 处理有两大优势：(1) 编码器已经充分学习空间信息，patch 处理只需关注时间维度；(2) 相邻帧之间的变化在 patch 级别很小，非常适合 SSM 的增量更新特性。
Shifted Window 机制:
- 功能：解决独立 patch 处理带来的边界效应，增强 patch 之间的空间上下文交互
- 核心思路：受 Swin Transformer 启发，每个 TV3S Block 的第二个 TSS 模块处理移位后的特征图。移位参数 \(s = w/2 = 10\)，使得原来相邻 patch 的边界区域在移位后被整合到同一个 patch 中。边缘产生的不完整块被进一步细分为更小的子块处理。这样两个 TSS 模块（unshifted + shifted）的组合就能同时捕获 patch 内部和 patch 边界处的时序动态。
- 设计动机：纯独立 patch 处理会忽略 patch 边界处的运动信息（如物体刚好跨越 patch 边界的情况）。Shifted window 是一种零开销的方式来扩展感受野。
双损失训练策略:
- 功能：同时保证空间特征质量和时序聚合效果
- 核心思路：总损失 \(\mathcal{L} = \lambda \sum_{k} \mathcal{L}_{CE}(\hat{O}_{t-k}, M_{t-k}) + \mathcal{L}_{CE}(O_t, M_t)\)，其中 \(\hat{O}_{t-k}\) 是从编码器直接输出的中间预测（不含时序信息），\(O_t\) 是经过 TV3S Block 后的最终预测。\(\lambda = 0.5\) 权衡两部分。训练时输入 4 帧，间隔为 \(\{t-9, t-6, t-3, t\}\)。
- 设计动机：中间损失确保编码器学到高质量的空间表示（作为 TV3S 输入的基础），最终损失优化时序聚合。如果只有最终损失，编码器可能退化为只为时序模块提供简单特征。

损失函数 / 训练策略¶

加权交叉熵损失。AdamW 优化器，"poly" 学习率策略，初始学习率 \(6 \times 10^{-5}\)。训练输入 4 帧（间隔 3 帧），推理时可处理任意长度视频（帧序列化，隐状态持续传递）。

实验关键数据¶

主实验（VSPW 数据集）¶

方法	Backbone	mIoU↑	mVC8↑	mVC16↑	GFLOPs↓	FPS↑
SegFormer	MiT-B2	43.9	86.0	81.2	100.8	16.2
CFFM	MiT-B2	44.9	89.8	85.8	143.2	10.1
MRCFA	MiT-B2	45.3	90.3	86.2	127.9	10.7
TV3S	MiT-B2	46.3	91.5	88.35	53.9	21.9

TV3S 以 MiT-B2 backbone 在 mIoU 上超越 MRCFA 1.0，mVC16 超越 2.15，GFLOPs 仅为 MRCFA 的 42%，FPS 翻倍。

消融实验¶

配置	mIoU↑	mVC8↑	说明
无 TV3S（SegFormer baseline）	36.5	84.7	纯帧级分割
TV3S (1 block)	38.4	89.2	单 block 时序增强
TV3S (4 blocks)	40.0	90.7	标准配置
TV3S 无 shift	39.1	89.6	去掉 shifted window
TV3S 有 shift	40.0	90.7	完整模型

关键发现¶

TV3S 在所有 backbone（MiT-B1/B2/B5、Swin-T/S）上均取得最佳 mIoU 和 mVC，且 GFLOPs 显著低于 Transformer 方法
时序一致性（mVC16）提升尤为显著：MiT-B2 上 88.35 vs MRCFA 的 86.2，说明 SSM 的隐状态传递机制非常适合时序一致性建模
Shifted window 对 mIoU 贡献 +0.9，对 mVC +1.1，证明边界处的时序信息确实重要
在 Swin-S backbone 上 mIoU 达到 50.6（远超 MPVSS 的 40.4），GFLOPs 仅 94.1（MPVSS 47.3 但准确率低 10 个点）
推理时处理完整视频序列（利用全部历史帧的隐状态），这是 Transformer 方法因注意力窗口限制无法做到的

亮点与洞察¶

SSM 在视频理解中的范式优势：与 Transformer 的有限注意力窗口相比，SSM 通过隐状态可以理论上无限地传播时序信息，且复杂度恒定。这使得推理时可以利用视频从第一帧开始的所有历史信息，是一个本质性的优势。
空间-时间解耦的高效设计：不像 VideoMamba 将整个视频张量展平为一个序列，TV3S 先让编码器处理空间特征，然后 SSM 只负责时间维度的 patch 独立聚合，极大降低了计算量。
训练-推理的灵活性：训练只用 4 帧但推理可处理任意长序列，隐状态的持续传递机制天然支持流式处理，这对实际视频分析应用（如自动驾驶、视频监控）非常实用。

局限与展望¶

隐状态维度和 patch 大小 \(w\) 的选择对性能有影响，当前固定为 \(w=20\)，未做自适应调整
仅在室外场景（VSPW、Cityscapes）验证，对于动态变化剧烈的场景（如快速运动、大遮挡）的表现未专门分析
SSM 的选择性门控机制没有被详细可视化分析——模型学到了怎样的时序传播模式不透明
FPS 虽然比 Transformer 方法高，但仍未达到实时水平（如 MiT-B5 backbone 只有 14 FPS）
训练时固定 3 帧间隔，对于帧率差异大的视频可能需要调整

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 Mamba SSM 以 patch 独立方式应用于视频语义分割，shifted window 配合巧妙
实验充分度: ⭐⭐⭐⭐ 多 backbone 验证、消融完整，缺少对长视频效果的深入分析
写作质量: ⭐⭐⭐⭐ 架构图清晰，但部分公式排版可以更规范
价值: ⭐⭐⭐⭐ 为 VSS 提供了一个高效的新范式，SSM 在视频密集预测中的潜力值得进一步探索