跳转至

DefMamba: Deformable Visual State Space Model

会议: CVPR 2025
arXiv: 2504.05794
代码: https://github.com/leiyeliu/DefMamba
领域: 图像分割
关键词: 状态空间模型, Mamba, 可变形扫描, 图像分类, 语义分割

一句话总结

DefMamba 提出了一种基于可变形机制的视觉状态空间模型,通过可变形扫描策略动态调整扫描路径(参考点偏移 + 扫描顺序偏移),克服了现有 Visual Mamba 方法使用固定扫描顺序导致的空间结构信息丢失问题,在 ImageNet 分类、COCO 检测和 ADE20K 分割上达到 SOTA。

研究背景与动机

当前主流视觉基础模型主要基于 CNN 和 Transformer。CNN 受限于滑动窗口的局部感受野,难以高效聚合全局信息;Transformer 通过注意力机制擅长全局信息聚合,但自注意力的 \(O(N^2)\) 计算复杂度限制了效率。状态空间模型(SSM),特别是 Mamba,通过隐藏状态矩阵递归聚合特征,将计算复杂度降低到 \(O(N)\),并通过选择机制(S6)引入内容感知,成为 CNN 和 Transformer 之外的第三条路径。

然而,将 Mamba 用于视觉任务面临一个核心挑战:如何将 2D 图像映射为 1D 序列? 现有方法采用各种固定策略: - 光栅扫描(ViM, VMamba):简单的行优先遍历 - 局部扫描(LocalVim):在局部窗口内扫描 - 连续扫描(PlainMamba):保持空间连续性

但这些方法都有共同问题:使用固定扫描路径,导致空间上相邻的 token 在展平后不再相邻,丢失了图像的空间结构信息。QuadMamba 可以自适应窗口大小但窗口内扫描仍固定;GrootV 基于相邻特征构建最小生成树但忽略全局信息。

核心矛盾在于:固定的扫描顺序无法适应输入图像的具体内容和结构,在处理不同物体形状时缺乏灵活性。

DefMamba 的核心 idea:受可变形卷积启发,设计了可变形扫描策略,同时动态调整两个方面:(1) 将参考点偏移到更有信息量的位置以感知物体细节变化;(2) 动态改变扫描顺序以获得结构感知的序列。

方法详解

整体框架

DefMamba 采用类似 Swin Transformer 的多尺度骨干结构:图像先通过 patch embedding 得到 \(H/4 \times W/4 \times C\) 的特征图,然后经过 4 个阶段,特征图分辨率逐步降低、通道数逐步增加(\(H/8 \times W/8 \times 2C\), \(H/16 \times W/16 \times 4C\), \(H/32 \times W/32 \times 8C\))。每个阶段由若干 可变形 Mamba(DM)块 和下采样层组成。DM 块采用类 Transformer 的结构:LayerNorm + DSSM + 残差连接 + LayerNorm + FFN + 残差连接。

关键设计

  1. 可变形状态空间模型 (DSSM):

    • 保留标准的前向和后向扫描分支以保证训练稳定性(因为可变形扫描引入更多空间跳跃)
    • 额外添加一个可变形分支,包含可变形扫描和可变形 SSM
    • 使用深度可分离卷积替代原始 1D 卷积来捕获局部特征
    • 三个分支的输出融合后得到最终特征
  2. 可变形扫描 (Deformable Scanning):

    • 给定输入特征 \(x \in \mathbb{R}^{H \times W \times C}\),通过偏移网络生成 3 通道偏移 \(o \in \mathbb{R}^{H \times W \times 3}\)
    • 偏移网络结构:\(K \times K\) 深度可分离卷积 → 通道注意力(CA)→ GELU → LayerNorm → \(1 \times 1\) 卷积
    • 使用 \(\tanh\) 约束偏移范围,避免极端值
    • 3 个通道分为:2 通道点偏移 \(\Delta p\)(空间位置偏移)+ 1 通道 token 索引偏移 \(\Delta t\)(扫描顺序偏移)
    • 点偏移被限制在单个 token 范围内(除以 H 和 W),约束可变形点与参考点的关系不变
  3. 点偏移 (Deformable Points):

    • 生成均匀参考点 \(p \in \mathbb{R}^{H \times W \times 2}\),归一化到 [-1, 1]
    • 可变形点 \(\hat{p} = p + \Delta p\)
    • 使用双线性插值在原始特征图上提取可变形点处的特征
    • 设计偏移偏置(Offset Bias):基于 Swin Transformer 的相对位置编码思路,设置可学习的偏移偏置矩阵 \(R\),通过插值获取位置补偿,解决点偏移导致位置编码失效的问题
    • 最终特征:\(\hat{x} = \phi(x, \hat{p}) + \phi(R, \hat{p})\)
  4. 索引偏移 (Deformable Tokens):

    • 生成参考 token 索引 \(t_r \in \mathbb{R}^{N \times 1}\),归一化到 [-1, 1]
    • 可变形 token 索引 \(t_d = t_r + \Delta t\)
    • \(t_d\) 排序确定新的扫描顺序(排序算法会截断梯度,通过平均梯度近似解决)
    • 按新顺序重排偏移后的特征,获得内容自适应的序列
  5. 偏移约束设计原则:

    • 可变形点的偏移范围限制在单个 token 内,避免多个可变形点互相干扰
    • 通道注意力解决深度卷积无法全局感知 token 排列的问题
    • 四个阶段的卷积核大小设为 [9, 7, 5, 3],适应不同尺度

损失函数 / 训练策略

  • 分类:标准交叉熵 + 标签平滑、mixup、autoaugment、随机擦除等增强
  • 检测/分割:使用预训练权重初始化,按标准策略训练(Mask R-CNN / UperNet)
  • 使用 AdamW 优化器,余弦退火学习率调度,300 epoch 训练 + 20 epoch 预热
  • 使用 EMA 稳定训练

实验关键数据

主实验

数据集/任务 指标 DefMamba-S 之前 SOTA 提升
ImageNet-1K 分类 Top-1 Acc 83.5 83.4 (GrootV-T) +0.1
ImageNet-1K 分类 (B) Top-1 Acc 84.2 84.2 (GrootV-S) 持平
COCO 检测 (Mask R-CNN) APb 47.5 47.4 (VMamba-T) +0.1
COCO 实例分割 APm 42.8 42.7 (VMamba-T/GrootV-T) +0.1
ADE20K 语义分割 (SS) mIoU 48.8 48.5 (GrootV-T) +0.3
ADE20K 语义分割 (MS) mIoU 49.6 49.4 (GrootV-T) +0.2
模型 类型 参数量 FLOPs Top-1
DefMamba-T SSM 8M 1.2G 78.6
DefMamba-S SSM 32M 4.8G 83.5
DefMamba-B SSM 51M 8.5G 84.2
ViM-T SSM 7M 1.5G 76.1
VMamba-T SSM 22M 5.6G 82.2
Swin-T Transformer 29M 4.5G 81.3
ConvNeXt-T CNN 29M 4.5G 82.1

消融实验

配置 Top-1 Acc 说明
FB-BB only (前向+后向分支) 76.9 基线
DB only (仅可变形分支) 76.5 单独使用不稳定
FB-BB + DB 78.6 (+1.7) 可变形分支的核心增益
FB-BB + 连续扫描 77.3 固定扫描方法对比
FB-BB + 局部扫描 77.1 固定扫描方法对比
组件消融 Top-1 说明
可变形分支基线(无 DP/DT) 77.0
+ 仅 DP (Deformable Points) 77.4 (+0.4) 参考点偏移有效
+ 仅 DT (Deformable Tokens) 77.2 (+0.2) 扫描顺序偏移有效
+ DP + DT 77.9 (+0.9) 两者互补
+ DP + DT + OB (Offset Bias) 78.2 (+1.2) 位置编码补偿重要
+ DP + DT + OB + CA 78.6 (+1.6) 通道注意力进一步提升

关键发现

  • 仅使用可变形分支会导致性能下降(76.5 vs 76.9),因为过多的空间跳跃使训练不稳定,必须保留前向+后向分支
  • 可变形分支比连续扫描(+0.7)和局部扫描(+0.5)带来更大的增益,验证了动态扫描的优越性
  • 点偏移和索引偏移互补:单独各贡献约 0.2-0.4,合并后提升 0.9
  • 偏移偏置(OB)解决位置编码失效问题至关重要
  • 通道注意力(CA)弥补了深度卷积无法全局感知的局限

亮点与洞察

  1. 可变形机制引入 SSM 的系统性设计:不是简单地将可变形卷积搬到 Mamba 上,而是针对 SSM 的特点设计了偏移约束、索引偏移排序、偏移偏置等配套方案
  2. 双重可变形设计:同时调整"在哪里看"(点偏移)和"按什么顺序看"(索引偏移),前者捕获物体细节变化,后者构建结构感知序列
  3. 训练稳定性的权衡:诚实地指出仅用可变形分支会不稳定,保留前向+后向分支作为"锚点",这种务实的设计思路值得学习
  4. 可视化有说服力:激活图清晰展示了可变形扫描比光栅扫描更精确地聚焦于物体结构

局限与展望

  • 作者自己指出两个失败情况:(1) 图像仅包含不完整的物体结构时,偏移过小,退化为固定扫描;(2) 多个物体按规则排列时,相邻 token 信息差异小,模型陷入"惰性学习"
  • 排序算法截断梯度,使用平均梯度近似可能不够精确
  • 可变形点偏移被限制在单 token 范围,对大范围形变的适应能力有限
  • 与最新 Transformer 方法(如 Conv2Former)在大模型尺度上差距仍然明显
  • 偏移网络的额外参数和计算可能在极端效率场景下成为负担

相关工作与启发

  • DAT(Deformable Attention Transformer)将可变形机制引入 Transformer,DefMamba 类比地引入 SSM
  • GrootV 基于最小生成树动态构建扫描拓扑,但仅用相邻特征,DefMamba 通过全局通道注意力获得更全面的感知
  • QuadMamba 自适应窗口大小但窗口内仍固定扫描,DefMamba 在 token 级别实现真正的动态扫描
  • 对分割任务的启发:空间结构感知的特征提取对密集预测任务至关重要,可变形扫描在分割上的 +0.3 mIoU 提升虽不大但方向正确

评分

  • 新颖性: ⭐⭐⭐⭐ 可变形扫描策略在 Visual Mamba 中是首创,点偏移+索引偏移的双重设计有新意
  • 实验充分度: ⭐⭐⭐⭐ 覆盖分类/检测/分割三大任务,消融实验全面;但缺少与 Transformer 方法在分割上的更细致对比
  • 写作质量: ⭐⭐⭐⭐ 方法描述详细,可视化丰富,诚实讨论了局限性
  • 价值: ⭐⭐⭐ 提升幅度相对较小(多为 0.1-0.3),Visual Mamba 赛道竞争激烈且方向不明朗,但可变形扫描的思路有延续价值

相关论文