VSSD: Vision Mamba with Non-Causal State Space Duality¶

会议: ICCV 2025
arXiv: 2407.18559
代码: GitHub
领域: segmentation
关键词: 状态空间模型, Mamba2, 非因果SSD, 视觉骨干网络, 线性复杂度

一句话总结¶

提出非因果状态空间对偶（NC-SSD），通过保留 token 贡献的相对权重取代隐状态的累积衰减，将 Mamba2 的 SSD 无缝转化为非因果形式，构建 VSSD 视觉骨干，在分类/检测/分割多任务上超越现有 SSM 模型，同时训练速度提升 20%-50%。

研究背景与动机¶

Vision Transformer 凭借全局感受野和强大建模能力在视觉领域取得巨大成功，但自注意力的二次计算复杂度限制了其在长序列（高分辨率图像）上的应用。状态空间模型（SSM）以线性复杂度提供了高效替代方案，Mamba2 进一步引入状态空间对偶（SSD），将转移矩阵 \(\mathbf{A}\) 简化为标量以提升性能和效率。

然而，SSD/SSM 在视觉任务中面临两个核心挑战：

因果性限制（Challenge 1）：每个 token 只能访问其前面的 token，无法整合后续 token 的信息，不适合天然非因果的图像数据

结构关系破坏（Challenge 2）：二维特征图展平为一维序列后，空间相邻的 token 在序列中可能距离很远，丢失固有结构信息

现有解决方案（如 VMamba）通过增加多扫描路径来缓解问题，但并未从根本上解决因果性限制。核心问题是：能否找到比多扫描更有效且更高效的方法，将 SSD 适配到非因果视觉数据？

方法详解¶

整体框架¶

VSSD 是四阶段层级化视觉骨干网络。前三阶段使用 VSSD Block（NC-SSD + FFN + LPU），最后阶段使用标准多头自注意力（MSA）。采用重叠卷积下采样层引入归纳偏置。

关键设计一：非因果状态空间对偶（NC-SSD）¶

标准 SSD 的线性形式为：

\[h(t) = A_t h(t-1) + \mathbf{B}_t x(t), \quad y(t) = \mathbf{C}_t h(t)\]

其中标量 \(A_t\) 控制前一隐状态的保留比例。作者提出关键洞察：丢弃隐状态和当前输入之间的绝对量级，仅保留相对权重，即：

\[h(t) = h(t-1) + \frac{1}{A_t}\mathbf{B}_t x(t) = \sum_{i=1}^{t} \frac{1}{A_i}\mathbf{B}_i x(i)\]

此时每个 token 的贡献由自身 \(\frac{1}{A_i}\) 决定，不再依赖前序 token。

结合双向扫描，第 \(i\) 个 token 的隐状态为：

\[\mathbf{H}_i = \sum_{j=1}^{L} \frac{1}{A_j}\mathbf{Z}_j + \frac{1}{A_i}\mathbf{Z}_i\]

忽略偏移项 \(\frac{1}{A_i}\mathbf{Z}_i\) 后，所有 token 共享同一全局隐状态 \(\mathbf{H} = \sum_{j=1}^{L}\frac{1}{A_j}\mathbf{Z}_j\)。这意味着： - 因果掩码自然移除，无需设计特定扫描路径（解决 Challenge 1） - token 之间的贡献与空间距离无关，避免展平破坏结构（解决 Challenge 2） - 全局隐状态可并行计算，提升训练和推理速度

最终 NC-SSD 简化为：

\[\mathbf{Y} = \mathbf{C}(\mathbf{B}^T(\mathbf{X} \cdot \mathbf{m}))\]

其中 \(\mathbf{m} \in \mathbb{R}^L\) 是由学习到的 \(A\) 导出的加权向量，可视化显示 \(\mathbf{m}\) 主要关注前景特征。

关键设计二：与自注意力的混合¶

仅在最后阶段使用标准 MSA 替换 NC-SSD，利用自注意力在高层特征上的优势。相比 Mamba2 在所有层均匀穿插注意力的做法，这种策略化混合更高效。

关键设计三：重叠下采样¶

采用重叠卷积替代传统非重叠卷积下采样（参考 MLLA），引入有益的归纳偏置。为保持参数量和计算量可比，相应调整模型深度。

模型变体¶

变体	Blocks	Channels	Param	FLOPs
VSSD-M	[2,2,18,4]	[48,196,192,384]	14M	2.3G
VSSD-T	[2,4,18,4]	[64,128,256,512]	24M	4.5G
VSSD-S	[3,4,18,5]	[64,128,256,512]	40M	7.4G
VSSD-B	[3,4,18,5]	[96,192,384,768]	89M	16.1G

实验¶

ImageNet-1K 分类¶

模型	类型	Param	FLOPs	Top-1 (%)
Swin-T	Attn	29M	4.5G	81.3
ConvNeXt-T	Conv	29M	4.5G	82.1
VMambaV9-T	SSM	31M	4.9G	82.5
VSSD-T	SSD	24M	4.5G	83.7
Swin-S	Attn	50M	8.7G	83.0
VMamba-S	SSM	44M	11.2G	83.5
VSSD-S	SSD	40M	7.4G	84.1
VMambaV9-B	SSM	89M	15.4G	83.9
VSSD-B	SSD	89M	16.1G	84.7

VSSD-T 以 24M 参数达到 83.7%，超越 VMambaV9-T 1.2%；引入 MESA 后进一步提升至 84.1%。

COCO 目标检测与实例分割（Mask R-CNN 1x）¶

骨干	AP^box	AP^mask	Param	FLOPs
Swin-T	42.7	39.3	48M	267G
ConvNeXt-T	44.2	40.1	48M	262G
VMamba-T	46.5	42.1	42M	286G
VSSD-T	46.9	42.6	44M	265G

VSSD-T 在 box AP 上领先 Swin-T +4.2，mask AP 领先 +3.3。

消融实验：NC-SSD 的效能¶

扫描方式	训练速度提升
NC-SSD vs vanilla SSD	~20% ↑
NC-SSD vs Bi-SSD（双向扫描）	~50% ↑

关键发现¶

NC-SSD 在精度上超越多扫描 SSD（如 Bi-SSD），同时训练速度更快
有效感受野（ERF）分析显示 VSSD 训练后保持全局感受野，而 VMamba 存在十字形衰减
\(\mathbf{m}\) 向量的可视化显示 NC-SSD 自适应聚焦前景特征
仅在最后阶段混合自注意力比全局穿插更优

亮点与洞察¶

理论推导优美：从 SSD 线性形式出发，通过"保留相对权重、丢弃绝对量级"这一简洁变换，自然推导出非因果形式
一箭双雕：NC-SSD 同时解决因果性限制和结构关系破坏两个问题，且形式与线性注意力相关
效率与精度兼备：无需多扫描路径即可获取全局信息，训练速度提升显著

局限性¶

NC-SSD 等价于线性注意力的特殊形式，表达能力可能弱于标准注意力
最后阶段仍需标准自注意力弥补，未完全实现纯线性复杂度
在超高分辨率场景（如遥感）的扩展性有待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 从 SSD 到 NC-SSD 的推导简洁有力，理论贡献突出
技术深度: ⭐⭐⭐⭐ — 数学推导严谨，架构设计合理
实验: ⭐⭐⭐⭐ — 分类/检测/分割全面覆盖，ERF 可视化直观
写作: ⭐⭐⭐⭐ — 两个挑战的提出和解决逻辑清晰