DefMamba: Deformable Visual State Space Model¶
会议: CVPR 2025
arXiv: 2504.05794
代码: https://github.com/leiyeliu/DefMamba
领域: 图像分割
关键词: 状态空间模型, Mamba, 可变形扫描, 图像分类, 语义分割
一句话总结¶
DefMamba 提出了一种基于可变形机制的视觉状态空间模型,通过可变形扫描策略动态调整扫描路径(参考点偏移 + 扫描顺序偏移),克服了现有 Visual Mamba 方法使用固定扫描顺序导致的空间结构信息丢失问题,在 ImageNet 分类、COCO 检测和 ADE20K 分割上达到 SOTA。
研究背景与动机¶
当前主流视觉基础模型主要基于 CNN 和 Transformer。CNN 受限于滑动窗口的局部感受野,难以高效聚合全局信息;Transformer 通过注意力机制擅长全局信息聚合,但自注意力的 \(O(N^2)\) 计算复杂度限制了效率。状态空间模型(SSM),特别是 Mamba,通过隐藏状态矩阵递归聚合特征,将计算复杂度降低到 \(O(N)\),并通过选择机制(S6)引入内容感知,成为 CNN 和 Transformer 之外的第三条路径。
然而,将 Mamba 用于视觉任务面临一个核心挑战:如何将 2D 图像映射为 1D 序列? 现有方法采用各种固定策略: - 光栅扫描(ViM, VMamba):简单的行优先遍历 - 局部扫描(LocalVim):在局部窗口内扫描 - 连续扫描(PlainMamba):保持空间连续性
但这些方法都有共同问题:使用固定扫描路径,导致空间上相邻的 token 在展平后不再相邻,丢失了图像的空间结构信息。QuadMamba 可以自适应窗口大小但窗口内扫描仍固定;GrootV 基于相邻特征构建最小生成树但忽略全局信息。
核心矛盾在于:固定的扫描顺序无法适应输入图像的具体内容和结构,在处理不同物体形状时缺乏灵活性。
DefMamba 的核心 idea:受可变形卷积启发,设计了可变形扫描策略,同时动态调整两个方面:(1) 将参考点偏移到更有信息量的位置以感知物体细节变化;(2) 动态改变扫描顺序以获得结构感知的序列。
方法详解¶
整体框架¶
DefMamba 采用类似 Swin Transformer 的多尺度骨干结构:图像先通过 patch embedding 得到 \(H/4 \times W/4 \times C\) 的特征图,然后经过 4 个阶段,特征图分辨率逐步降低、通道数逐步增加(\(H/8 \times W/8 \times 2C\), \(H/16 \times W/16 \times 4C\), \(H/32 \times W/32 \times 8C\))。每个阶段由若干 可变形 Mamba(DM)块 和下采样层组成。DM 块采用类 Transformer 的结构:LayerNorm + DSSM + 残差连接 + LayerNorm + FFN + 残差连接。
关键设计¶
-
可变形状态空间模型 (DSSM):
- 保留标准的前向和后向扫描分支以保证训练稳定性(因为可变形扫描引入更多空间跳跃)
- 额外添加一个可变形分支,包含可变形扫描和可变形 SSM
- 使用深度可分离卷积替代原始 1D 卷积来捕获局部特征
- 三个分支的输出融合后得到最终特征
-
可变形扫描 (Deformable Scanning):
- 给定输入特征 \(x \in \mathbb{R}^{H \times W \times C}\),通过偏移网络生成 3 通道偏移 \(o \in \mathbb{R}^{H \times W \times 3}\)
- 偏移网络结构:\(K \times K\) 深度可分离卷积 → 通道注意力(CA)→ GELU → LayerNorm → \(1 \times 1\) 卷积
- 使用 \(\tanh\) 约束偏移范围,避免极端值
- 3 个通道分为:2 通道点偏移 \(\Delta p\)(空间位置偏移)+ 1 通道 token 索引偏移 \(\Delta t\)(扫描顺序偏移)
- 点偏移被限制在单个 token 范围内(除以 H 和 W),约束可变形点与参考点的关系不变
-
点偏移 (Deformable Points):
- 生成均匀参考点 \(p \in \mathbb{R}^{H \times W \times 2}\),归一化到 [-1, 1]
- 可变形点 \(\hat{p} = p + \Delta p\)
- 使用双线性插值在原始特征图上提取可变形点处的特征
- 设计偏移偏置(Offset Bias):基于 Swin Transformer 的相对位置编码思路,设置可学习的偏移偏置矩阵 \(R\),通过插值获取位置补偿,解决点偏移导致位置编码失效的问题
- 最终特征:\(\hat{x} = \phi(x, \hat{p}) + \phi(R, \hat{p})\)
-
索引偏移 (Deformable Tokens):
- 生成参考 token 索引 \(t_r \in \mathbb{R}^{N \times 1}\),归一化到 [-1, 1]
- 可变形 token 索引 \(t_d = t_r + \Delta t\)
- 对 \(t_d\) 排序确定新的扫描顺序(排序算法会截断梯度,通过平均梯度近似解决)
- 按新顺序重排偏移后的特征,获得内容自适应的序列
-
偏移约束设计原则:
- 可变形点的偏移范围限制在单个 token 内,避免多个可变形点互相干扰
- 通道注意力解决深度卷积无法全局感知 token 排列的问题
- 四个阶段的卷积核大小设为 [9, 7, 5, 3],适应不同尺度
损失函数 / 训练策略¶
- 分类:标准交叉熵 + 标签平滑、mixup、autoaugment、随机擦除等增强
- 检测/分割:使用预训练权重初始化,按标准策略训练(Mask R-CNN / UperNet)
- 使用 AdamW 优化器,余弦退火学习率调度,300 epoch 训练 + 20 epoch 预热
- 使用 EMA 稳定训练
实验关键数据¶
主实验¶
| 数据集/任务 | 指标 | DefMamba-S | 之前 SOTA | 提升 |
|---|---|---|---|---|
| ImageNet-1K 分类 | Top-1 Acc | 83.5 | 83.4 (GrootV-T) | +0.1 |
| ImageNet-1K 分类 (B) | Top-1 Acc | 84.2 | 84.2 (GrootV-S) | 持平 |
| COCO 检测 (Mask R-CNN) | APb | 47.5 | 47.4 (VMamba-T) | +0.1 |
| COCO 实例分割 | APm | 42.8 | 42.7 (VMamba-T/GrootV-T) | +0.1 |
| ADE20K 语义分割 (SS) | mIoU | 48.8 | 48.5 (GrootV-T) | +0.3 |
| ADE20K 语义分割 (MS) | mIoU | 49.6 | 49.4 (GrootV-T) | +0.2 |
| 模型 | 类型 | 参数量 | FLOPs | Top-1 |
|---|---|---|---|---|
| DefMamba-T | SSM | 8M | 1.2G | 78.6 |
| DefMamba-S | SSM | 32M | 4.8G | 83.5 |
| DefMamba-B | SSM | 51M | 8.5G | 84.2 |
| ViM-T | SSM | 7M | 1.5G | 76.1 |
| VMamba-T | SSM | 22M | 5.6G | 82.2 |
| Swin-T | Transformer | 29M | 4.5G | 81.3 |
| ConvNeXt-T | CNN | 29M | 4.5G | 82.1 |
消融实验¶
| 配置 | Top-1 Acc | 说明 |
|---|---|---|
| FB-BB only (前向+后向分支) | 76.9 | 基线 |
| DB only (仅可变形分支) | 76.5 | 单独使用不稳定 |
| FB-BB + DB | 78.6 (+1.7) | 可变形分支的核心增益 |
| FB-BB + 连续扫描 | 77.3 | 固定扫描方法对比 |
| FB-BB + 局部扫描 | 77.1 | 固定扫描方法对比 |
| 组件消融 | Top-1 | 说明 |
|---|---|---|
| 可变形分支基线(无 DP/DT) | 77.0 | |
| + 仅 DP (Deformable Points) | 77.4 (+0.4) | 参考点偏移有效 |
| + 仅 DT (Deformable Tokens) | 77.2 (+0.2) | 扫描顺序偏移有效 |
| + DP + DT | 77.9 (+0.9) | 两者互补 |
| + DP + DT + OB (Offset Bias) | 78.2 (+1.2) | 位置编码补偿重要 |
| + DP + DT + OB + CA | 78.6 (+1.6) | 通道注意力进一步提升 |
关键发现¶
- 仅使用可变形分支会导致性能下降(76.5 vs 76.9),因为过多的空间跳跃使训练不稳定,必须保留前向+后向分支
- 可变形分支比连续扫描(+0.7)和局部扫描(+0.5)带来更大的增益,验证了动态扫描的优越性
- 点偏移和索引偏移互补:单独各贡献约 0.2-0.4,合并后提升 0.9
- 偏移偏置(OB)解决位置编码失效问题至关重要
- 通道注意力(CA)弥补了深度卷积无法全局感知的局限
亮点与洞察¶
- 可变形机制引入 SSM 的系统性设计:不是简单地将可变形卷积搬到 Mamba 上,而是针对 SSM 的特点设计了偏移约束、索引偏移排序、偏移偏置等配套方案
- 双重可变形设计:同时调整"在哪里看"(点偏移)和"按什么顺序看"(索引偏移),前者捕获物体细节变化,后者构建结构感知序列
- 训练稳定性的权衡:诚实地指出仅用可变形分支会不稳定,保留前向+后向分支作为"锚点",这种务实的设计思路值得学习
- 可视化有说服力:激活图清晰展示了可变形扫描比光栅扫描更精确地聚焦于物体结构
局限与展望¶
- 作者自己指出两个失败情况:(1) 图像仅包含不完整的物体结构时,偏移过小,退化为固定扫描;(2) 多个物体按规则排列时,相邻 token 信息差异小,模型陷入"惰性学习"
- 排序算法截断梯度,使用平均梯度近似可能不够精确
- 可变形点偏移被限制在单 token 范围,对大范围形变的适应能力有限
- 与最新 Transformer 方法(如 Conv2Former)在大模型尺度上差距仍然明显
- 偏移网络的额外参数和计算可能在极端效率场景下成为负担
相关工作与启发¶
- DAT(Deformable Attention Transformer)将可变形机制引入 Transformer,DefMamba 类比地引入 SSM
- GrootV 基于最小生成树动态构建扫描拓扑,但仅用相邻特征,DefMamba 通过全局通道注意力获得更全面的感知
- QuadMamba 自适应窗口大小但窗口内仍固定扫描,DefMamba 在 token 级别实现真正的动态扫描
- 对分割任务的启发:空间结构感知的特征提取对密集预测任务至关重要,可变形扫描在分割上的 +0.3 mIoU 提升虽不大但方向正确
评分¶
- 新颖性: ⭐⭐⭐⭐ 可变形扫描策略在 Visual Mamba 中是首创,点偏移+索引偏移的双重设计有新意
- 实验充分度: ⭐⭐⭐⭐ 覆盖分类/检测/分割三大任务,消融实验全面;但缺少与 Transformer 方法在分割上的更细致对比
- 写作质量: ⭐⭐⭐⭐ 方法描述详细,可视化丰富,诚实讨论了局限性
- 价值: ⭐⭐⭐ 提升幅度相对较小(多为 0.1-0.3),Visual Mamba 赛道竞争激烈且方向不明朗,但可变形扫描的思路有延续价值
相关论文¶
- [CVPR 2025] GroupMamba: Efficient Group-Based Visual State Space Model
- [CVPR 2025] Exploiting Temporal State Space Sharing for Video Semantic Segmentation
- [CVPR 2025] MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation
- [CVPR 2025] 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification
- [CVPR 2026] RS-SSM: Refining Forgotten Specifics in State Space Model for Video Semantic Segmentation