GroupMamba: Efficient Group-Based Visual State Space Model¶

会议: CVPR 2025
arXiv: 2407.13772
代码: GitHub
领域: segmentation
关键词: state space model, Mamba, group convolution, channel modulation, knowledge distillation, ImageNet

一句话总结¶

提出 Modulated Group Mamba 层，将输入通道分为四组分别按四个方向执行单向 SSM 扫描，通过 Channel Affinity Modulation（CAM）增强跨组通道交互，配合蒸馏训练目标解决大模型不稳定问题，在 ImageNet-1K 上以 23M 参数达到 83.3% Top-1 精度。

研究背景与动机¶

领域现状: 视觉状态空间模型（Visual SSM）如 VMamba、Vision Mamba 等借鉴 Mamba 的线性复杂度处理长序列的能力，在视觉任务中展现潜力。

现有痛点: - 参数效率低: 标准 VSS block 对所有通道执行 4 方向全扫描，输入/输出投影和深度卷积的参数量与通道数成正比，导致参数冗余 - 训练不稳定: Mamba-based 模型在扩展到大模型时训练不稳定（如 SiMBA-L MLP 仅 49% 精度） - 扫描冗余: 每个方向都对全部通道扫描，计算浪费

核心矛盾: 提高视觉 SSM 的参数效率和训练稳定性，同时保持对局部/全局信息的有效建模。

本文切入角度: 受分组卷积（Group Convolution）启发，将通道分为四组，每组只沿一个方向扫描，大幅减少参数；同时设计 CAM 机制弥补分组带来的通道交互不足。

方法详解¶

整体框架¶

采用类似 Swin-Transformer 的四阶段层次结构： 1. Patch Embedding（两个 3×3 卷积，stride=2）生成 H/4×W/4 的初始特征 2. 每阶段包含 N 个 Modulated Group Mamba block + 下采样层 3. 四阶段特征分辨率依次为 H/4、H/8、H/16、H/32

关键设计¶

1. Visual Single Selective Scan (VSSS) Block - 功能: 基于 Mamba 的 token-channel 混合器，由一个 Mamba block + FFN 组成，各前接 LayerNorm - 核心思路: 对输入 $\mathbf{Z}_{in}$ 先经 Mamba SSM 做 token mixing（序列建模），再经 FFN 做 channel mixing，均带残差连接 - 设计动机: 作为分组扫描的基本单元，每个 VSSS block 仅处理 $C/4$ 个通道的单方向扫描

2. Grouped Mamba Operator（分组扫描） - 功能: 将输入 $C$ 通道分为 4 组（各 $C/4$），分别按左→右、右→左、上→下、下→上四个方向展平为 1D 序列，各自独立通过一个 VSSS block 处理后拼接 - 核心思路: $$\mathbf{X}_{GM} = \text{Concat}(\text{VSSS}(\mathbf{X}_{LR}), \text{VSSS}(\mathbf{X}_{RL}), \text{VSSS}(\mathbf{X}_{TB}), \text{VSSS}(\mathbf{X}_{BT}))$$ - 设计动机: 每组只处理 $C/4$ 通道和单方向扫描，参数量和计算量大幅降低（参数减少约 26%）；四个方向覆盖完整空间依赖

3. Channel Affinity Modulation (CAM) - 功能: 对分组 Mamba 输出进行通道重标定，增强跨组通道信息交换 - 核心思路: - 全局平均池化 → 两层 FC（类似 SE block）→ Sigmoid 得到通道权重 - $\mathbf{X}_{CAM} = \mathbf{X}_{GM} \cdot \text{Affinity}(\mathbf{X}_{in})$ - 设计动机: 分组操作限制了通道间交互（每组只看 $C/4$ 通道），CAM 通过输入特征计算的亲和力权重重新校准输出，弥补信息隔离

损失函数 / 训练策略¶

蒸馏联合损失：

\[\mathcal{L}_{total} = \alpha \mathcal{L}_{CE}(Z_s, y) + (1-\alpha) \mathcal{L}_{CE}(Z_s, y_t)\]

$Z_s$: 学生模型 logits，$y$: ground-truth 标签，$y_t$: 教师硬标签
教师模型: RegNetY-16G（84M 参数，82.9% Top-1）
蒸馏目标是缓解大模型训练不稳定（SiMBA 已证明 MLP channel mixer + 大 Mamba 会发散）
Label smoothing 0.1，300 epochs，AdamW，初始 lr=1e-3

实验关键数据¶

主实验（ImageNet-1K 分类）¶

模型	参数量	FLOPs	Top-1
Swin-T	28M	4.6G	81.3
VMamba-T	31M	4.9G	82.5
LocalVMamba-T	26M	5.7G	82.7
GroupMamba-T	23M	4.5G	83.3
VMamba-S	50M	8.7G	83.6
GroupMamba-S	34M	7.0G	83.9
VMamba-B	89M	15.4G	83.9
GroupMamba-B	57M	14G	84.5

下游任务： - COCO 检测 (Mask R-CNN): AP^b = 47.6, AP^m = 42.9（超越 Swin-T、ConvNeXt-T） - ADE20K 语义分割 (UperNet): mIoU = 48.6 (SS) / 49.2 (MS)

消融实验¶

配置	Params	Throughput	Top-1
4-D scanning (baseline)	22M	803	82.30
+ Grouped 1-D scanning	22M	1125	82.20
+ CAM	22M	1069	82.50
+ Distillation loss	23M	1069	83.30

关键发现¶

分组扫描几乎无精度损失: 从 4-D full scanning 到 grouped 1-D scanning 仅降 0.1%，但吞吐量提升 40%（803→1125）
CAM 有效弥补通道隔离: +0.3% 精度，开销极小
蒸馏是稳定训练的关键: +0.8% 精度，解决大 SSM 模型发散问题
参数效率显著: GroupMamba-T 用 23M 超越 VMamba-T（31M），减少 26% 参数
GroupMamba-B vs VMamba-B: 36% 更少参数，+0.6% 精度

亮点与洞察¶

分组扫描思想简洁有效：用分组卷积的成熟理念解决 SSM 的通道冗余
CAM 的设计虽类似 SE block，但在 SSM 分组上下文中有独特价值
蒸馏解决 SSM 训练不稳定的方案具有通用性
三个变体（T/S/B）形成完整的精度-效率 tradeoff 系列

局限与展望¶

蒸馏依赖于外部教师模型（RegNetY-16G），增加了训练复杂度
仅验证了图像分类、检测、分割，未扩展到视频理解或时序任务
四组固定分配可能不是最优，可探索自适应分组策略
CAM 本质是 SE block 的应用，创新增量有限
未与同期 Mamba-2 等新架构对比

评分¶

⭐⭐⭐⭐ — 分组扫描设计简洁优雅，实验充分覆盖多个下游任务；蒸馏+CAM 的组合虽非全新但实用有效，参数效率优势显著。