DefMamba: Deformable Visual State Space Model¶

会议: CVPR 2025
arXiv: 2504.05794
代码: https://github.com/leiyeliu/DefMamba
领域: 图像分割
关键词: 状态空间模型, Mamba, 可变形扫描, 图像分类, 语义分割

一句话总结¶

DefMamba 提出了一种基于可变形机制的视觉状态空间模型，通过可变形扫描策略动态调整扫描路径（参考点偏移 + 扫描顺序偏移），克服了现有 Visual Mamba 方法使用固定扫描顺序导致的空间结构信息丢失问题，在 ImageNet 分类、COCO 检测和 ADE20K 分割上达到 SOTA。

研究背景与动机¶

当前主流视觉基础模型主要基于 CNN 和 Transformer。CNN 受限于滑动窗口的局部感受野，难以高效聚合全局信息；Transformer 通过注意力机制擅长全局信息聚合，但自注意力的 \(O(N^2)\) 计算复杂度限制了效率。状态空间模型（SSM），特别是 Mamba，通过隐藏状态矩阵递归聚合特征，将计算复杂度降低到 \(O(N)\)，并通过选择机制（S6）引入内容感知，成为 CNN 和 Transformer 之外的第三条路径。

然而，将 Mamba 用于视觉任务面临一个核心挑战：如何将 2D 图像映射为 1D 序列？ 现有方法采用各种固定策略： - 光栅扫描（ViM, VMamba）：简单的行优先遍历 - 局部扫描（LocalVim）：在局部窗口内扫描 - 连续扫描（PlainMamba）：保持空间连续性

但这些方法都有共同问题：使用固定扫描路径，导致空间上相邻的 token 在展平后不再相邻，丢失了图像的空间结构信息。QuadMamba 可以自适应窗口大小但窗口内扫描仍固定；GrootV 基于相邻特征构建最小生成树但忽略全局信息。

核心矛盾在于：固定的扫描顺序无法适应输入图像的具体内容和结构，在处理不同物体形状时缺乏灵活性。

DefMamba 的核心 idea：受可变形卷积启发，设计了可变形扫描策略，同时动态调整两个方面：(1) 将参考点偏移到更有信息量的位置以感知物体细节变化；(2) 动态改变扫描顺序以获得结构感知的序列。

方法详解¶

整体框架¶

DefMamba 采用类似 Swin Transformer 的多尺度骨干结构：图像先通过 patch embedding 得到 \(H/4 \times W/4 \times C\) 的特征图，然后经过 4 个阶段，特征图分辨率逐步降低、通道数逐步增加（\(H/8 \times W/8 \times 2C\), \(H/16 \times W/16 \times 4C\), \(H/32 \times W/32 \times 8C\)）。每个阶段由若干 可变形 Mamba（DM）块 和下采样层组成。DM 块采用类 Transformer 的结构：LayerNorm + DSSM + 残差连接 + LayerNorm + FFN + 残差连接。

关键设计¶

可变形状态空间模型 (DSSM):
- 保留标准的前向和后向扫描分支以保证训练稳定性（因为可变形扫描引入更多空间跳跃）
- 额外添加一个可变形分支，包含可变形扫描和可变形 SSM
- 使用深度可分离卷积替代原始 1D 卷积来捕获局部特征
- 三个分支的输出融合后得到最终特征
可变形扫描 (Deformable Scanning):
- 给定输入特征 \(x \in \mathbb{R}^{H \times W \times C}\)，通过偏移网络生成 3 通道偏移 \(o \in \mathbb{R}^{H \times W \times 3}\)
- 偏移网络结构：\(K \times K\) 深度可分离卷积 → 通道注意力（CA）→ GELU → LayerNorm → \(1 \times 1\) 卷积
- 使用 \(\tanh\) 约束偏移范围，避免极端值
- 3 个通道分为：2 通道点偏移 \(\Delta p\)（空间位置偏移）+ 1 通道 token 索引偏移 \(\Delta t\)（扫描顺序偏移）
- 点偏移被限制在单个 token 范围内（除以 H 和 W），约束可变形点与参考点的关系不变
点偏移 (Deformable Points):
- 生成均匀参考点 \(p \in \mathbb{R}^{H \times W \times 2}\)，归一化到 [-1, 1]
- 可变形点 \(\hat{p} = p + \Delta p\)
- 使用双线性插值在原始特征图上提取可变形点处的特征
- 设计偏移偏置（Offset Bias）：基于 Swin Transformer 的相对位置编码思路，设置可学习的偏移偏置矩阵 \(R\)，通过插值获取位置补偿，解决点偏移导致位置编码失效的问题
- 最终特征：\(\hat{x} = \phi(x, \hat{p}) + \phi(R, \hat{p})\)
索引偏移 (Deformable Tokens):
- 生成参考 token 索引 \(t_r \in \mathbb{R}^{N \times 1}\)，归一化到 [-1, 1]
- 可变形 token 索引 \(t_d = t_r + \Delta t\)
- 对 \(t_d\) 排序确定新的扫描顺序（排序算法会截断梯度，通过平均梯度近似解决）
- 按新顺序重排偏移后的特征，获得内容自适应的序列
偏移约束设计原则:
- 可变形点的偏移范围限制在单个 token 内，避免多个可变形点互相干扰
- 通道注意力解决深度卷积无法全局感知 token 排列的问题
- 四个阶段的卷积核大小设为 [9, 7, 5, 3]，适应不同尺度

损失函数 / 训练策略¶

分类：标准交叉熵 + 标签平滑、mixup、autoaugment、随机擦除等增强
检测/分割：使用预训练权重初始化，按标准策略训练（Mask R-CNN / UperNet）
使用 AdamW 优化器，余弦退火学习率调度，300 epoch 训练 + 20 epoch 预热
使用 EMA 稳定训练

实验关键数据¶

主实验¶

数据集/任务	指标	DefMamba-S	之前 SOTA	提升
ImageNet-1K 分类	Top-1 Acc	83.5	83.4 (GrootV-T)	+0.1
ImageNet-1K 分类 (B)	Top-1 Acc	84.2	84.2 (GrootV-S)	持平
COCO 检测 (Mask R-CNN)	APb	47.5	47.4 (VMamba-T)	+0.1
COCO 实例分割	APm	42.8	42.7 (VMamba-T/GrootV-T)	+0.1
ADE20K 语义分割 (SS)	mIoU	48.8	48.5 (GrootV-T)	+0.3
ADE20K 语义分割 (MS)	mIoU	49.6	49.4 (GrootV-T)	+0.2

模型	类型	参数量	FLOPs	Top-1
DefMamba-T	SSM	8M	1.2G	78.6
DefMamba-S	SSM	32M	4.8G	83.5
DefMamba-B	SSM	51M	8.5G	84.2
ViM-T	SSM	7M	1.5G	76.1
VMamba-T	SSM	22M	5.6G	82.2
Swin-T	Transformer	29M	4.5G	81.3
ConvNeXt-T	CNN	29M	4.5G	82.1

消融实验¶

配置	Top-1 Acc	说明
FB-BB only (前向+后向分支)	76.9	基线
DB only (仅可变形分支)	76.5	单独使用不稳定
FB-BB + DB	78.6 (+1.7)	可变形分支的核心增益
FB-BB + 连续扫描	77.3	固定扫描方法对比
FB-BB + 局部扫描	77.1	固定扫描方法对比

组件消融	Top-1	说明
可变形分支基线（无 DP/DT）	77.0
+ 仅 DP (Deformable Points)	77.4 (+0.4)	参考点偏移有效
+ 仅 DT (Deformable Tokens)	77.2 (+0.2)	扫描顺序偏移有效
+ DP + DT	77.9 (+0.9)	两者互补
+ DP + DT + OB (Offset Bias)	78.2 (+1.2)	位置编码补偿重要
+ DP + DT + OB + CA	78.6 (+1.6)	通道注意力进一步提升

关键发现¶

仅使用可变形分支会导致性能下降（76.5 vs 76.9），因为过多的空间跳跃使训练不稳定，必须保留前向+后向分支
可变形分支比连续扫描（+0.7）和局部扫描（+0.5）带来更大的增益，验证了动态扫描的优越性
点偏移和索引偏移互补：单独各贡献约 0.2-0.4，合并后提升 0.9
偏移偏置（OB）解决位置编码失效问题至关重要
通道注意力（CA）弥补了深度卷积无法全局感知的局限

亮点与洞察¶

可变形机制引入 SSM 的系统性设计：不是简单地将可变形卷积搬到 Mamba 上，而是针对 SSM 的特点设计了偏移约束、索引偏移排序、偏移偏置等配套方案
双重可变形设计：同时调整"在哪里看"（点偏移）和"按什么顺序看"（索引偏移），前者捕获物体细节变化，后者构建结构感知序列
训练稳定性的权衡：诚实地指出仅用可变形分支会不稳定，保留前向+后向分支作为"锚点"，这种务实的设计思路值得学习
可视化有说服力：激活图清晰展示了可变形扫描比光栅扫描更精确地聚焦于物体结构

局限与展望¶

作者自己指出两个失败情况：(1) 图像仅包含不完整的物体结构时，偏移过小，退化为固定扫描；(2) 多个物体按规则排列时，相邻 token 信息差异小，模型陷入"惰性学习"
排序算法截断梯度，使用平均梯度近似可能不够精确
可变形点偏移被限制在单 token 范围，对大范围形变的适应能力有限
与最新 Transformer 方法（如 Conv2Former）在大模型尺度上差距仍然明显
偏移网络的额外参数和计算可能在极端效率场景下成为负担

评分¶

新颖性: ⭐⭐⭐⭐ 可变形扫描策略在 Visual Mamba 中是首创，点偏移+索引偏移的双重设计有新意
实验充分度: ⭐⭐⭐⭐ 覆盖分类/检测/分割三大任务，消融实验全面；但缺少与 Transformer 方法在分割上的更细致对比
写作质量: ⭐⭐⭐⭐ 方法描述详细，可视化丰富，诚实讨论了局限性
价值: ⭐⭐⭐ 提升幅度相对较小（多为 0.1-0.3），Visual Mamba 赛道竞争激烈且方向不明朗，但可变形扫描的思路有延续价值