MambaOut: Do We Really Need Mamba for Vision?¶

会议: CVPR 2025
arXiv: 2405.07992
代码: https://github.com/yuweihao/MambaOut
领域: 图像分类 / 视觉骨干网络
关键词: Mamba, SSM, Gated CNN, 视觉识别, 图像分类

一句话总结¶

本文通过概念分析指出 Mamba 的 SSM 机制适用于长序列+自回归任务，而 ImageNet 图像分类两者都不满足，因此构建了去掉 SSM 的 MambaOut（纯 Gated CNN）系列模型，在图像分类上全面超越所有视觉 Mamba 模型，有力证明了 SSM 对视觉分类是不必要的。

研究背景与动机¶

领域现状：Mamba 作为一种基于 SSM 的 RNN-like 架构，凭借线性复杂度在 NLP 中表现出色，随后被引入视觉任务（Vision Mamba、VMamba、PlainMamba 等），试图替代 Transformer 的二次复杂度 attention。
现有痛点：然而，视觉 Mamba 模型在实际性能上令人失望——与卷积模型和 attention 模型相比始终落后。例如 CAFormer-M36 使用 7 年前的分离卷积+vanilla attention 就能超过所有同等大小的视觉 Mamba 模型 1% 以上。
核心矛盾：社区一直在给 Mamba 加各种视觉改进（双向扫描、局部归纳偏置等），却没人从根本上追问：SSM 对视觉任务到底是不是必要的？
本文目标：从 Mamba 的 RNN 本质出发，分析 SSM 适合的任务特征，然后检验视觉任务是否符合这些特征。
切入角度：作者从记忆机制出发——SSM 的固定大小隐状态是有损记忆，只有在长序列时才能体现优势（attention 会爆内存）；同时 SSM 的递归本质决定了它是 causal mode（只能看到之前的 token），适合自回归任务而非理解任务。
核心 idea：SSM 适合长序列+自回归任务，ImageNet 分类两个特征都不满足，所以 SSM 是不必要的——去掉 SSM 的 Gated CNN 就能超越视觉 Mamba。

方法详解¶

整体框架¶

MambaOut 采用类似 ResNet 的 4 阶段层级架构，每个阶段堆叠 Gated CNN block。输入图像经过 patch embedding 后依次通过 4 个 stage，每个 stage 之间通过下采样降低分辨率、提升通道数。最终通过全局平均池化 + 分类头输出预测。核心关注点不在于提出新架构，而在于去掉 SSM 后验证假设。

关键设计¶

Gated CNN Block（核心组件）:
- 功能：作为 Mamba block 的"去 SSM 版本"，用纯卷积实现 token mixing
- 核心思路：对输入 \(X\) 先做 LayerNorm，然后通过一个线性层投影到两个分支——一个经过 depthwise conv（7×7 kernel，部分通道）做 token mixing，另一个通过激活函数 GELU 做 gating；两者逐元素相乘后再通过线性层投影回原维度，加残差连接。公式为 \(Y = (\text{TokenMixer}(X'W_1) \odot \sigma(X'W_2))W_3 + X\)
- 设计动机：Mamba block 本质上就是在 Gated CNN 的基础上加了 SSM。移除 SSM 后，Gated CNN block 保留了门控卷积的表达能力，可以直接验证 SSM 的贡献
部分通道卷积策略:
- 功能：只在部分通道上进行 depthwise conv，提高实际推理速度
- 核心思路：借鉴 InceptionNeXt，将 hidden 维度拆为三部分——gating 分支、identity 分支和卷积分支，只有卷积分支做 depthwise conv，其余直接 pass through，最后 concat
- 设计动机：全通道 depthwise conv 虽然 FLOPs 低但实际速度慢（内存访问瓶颈），部分通道策略在几乎不损失精度的情况下大幅提升吞吐量
概念性分析框架（双特征判据）:
- 功能：从理论层面判断 Mamba 对某类任务是否必要
- 核心思路：(1) 长序列特征：当 token 数量 \(L > 6D\)（D 为通道数）时，attention 的二次项才主导计算量。ImageNet 224² 分辨率只有 196 个 token，远小于阈值 2304（ViT-S）；检测分割约 4K tokens，接近阈值。(2) 自回归特征：视觉理解任务是 fully-visible mode（模型一次看到整张图），而 SSM 天然是 causal mode（只能看当前及之前的 token），对理解任务反而有害——实验证明给 ViT 加 causal mask 后精度下降
- 设计动机：为实验提供清晰的理论预期：分类不需要 SSM（Hypothesis 1），检测分割值得探索 SSM（Hypothesis 2）

损失函数 / 训练策略¶

采用标准 DeiT 训练方案（无蒸馏）：RandAugment、Mixup、CutMix、Random Erasing、label smoothing、stochastic depth 等。优化器为 AdamW，学习率 \(lr = \frac{batchsize}{1024} \times 10^{-3}\)，batch size 4096，在 TPU v3 上训练。

实验关键数据¶

主实验¶

模型	Token Mixer	Params	MACs	Top-1 Acc
MambaOut-Femto	Conv	7M	1.2G	78.9%
EfficientVMamba-S	Conv+SSM	11M	1.3G	78.7%
MambaOut-Tiny	Conv	27M	4.5G	82.7%
VMamba-T	Conv+SSM	22M	5.6G	82.2%
LocalVMamba-T	Conv+SSM	26M	5.7G	82.7%
MambaOut-Small	Conv	48M	9.0G	84.1%
VMamba-S	Conv+SSM	44M	11.2G	83.5%
LocalVMamba-S	Conv+SSM	50M	11.4G	83.7%
MambaOut-Base	Conv	85M	15.8G	84.2%
VMamba-B	Conv+SSM	75M	18.0G	83.7%

MambaOut 在所有尺度上均超越视觉 Mamba 模型，且 MACs 更低。

消融实验¶

实验设定	结论
ViT causal vs fully-visible	加 causal mask 后 ViT 精度显著下降，证明视觉理解不需要 causal mixing
检测/分割任务	MambaOut 无法匹配 SOTA Mamba 模型（VMamba-T: 47.3 AP vs MambaOut: 低于此），支持 Hypothesis 2
ImageNet 分类	MambaOut 全面超越 Mamba 模型，支持 Hypothesis 1

关键发现¶

SSM 对 ImageNet 分类完全不必要，纯 Gated CNN 去掉 SSM 后反而更好，说明 SSM 在短序列理解任务中是负面的
SSM 在检测/分割任务中仍有价值，因为这些任务的 token 序列较长（~4K），SSM 的线性复杂度优势可以发挥
当前视觉 Mamba 模型与 SOTA 卷积/attention 混合模型（如 CAFormer-M36: 85.2%）仍有 >1% 的差距

亮点与洞察¶

从第一性原理分析：不盲目跟风改进 Mamba for Vision，而是退一步追问"Mamba 的 SSM 到底适合什么任务"，从 RNN 记忆机制和 token mixing 模式两个维度给出清晰判据。这种思维方式可迁移到任何"XX for YY"的跨领域迁移问题
Occam's Razor 实践：MambaOut 作为最简 baseline，用"减法"而非"加法"证明观点。去掉 SSM 效果更好，比复杂改进更有说服力
长序列阈值公式：\(L > 6D\) 的判据简洁实用，可以快速判断任何视觉任务是否受益于线性复杂度 token mixer

局限与展望¶

作者只验证了分类/检测/分割三类任务，对视频理解、点云等真正的长序列视觉任务未做验证
MambaOut 的 Gated CNN block 在下游任务（检测/分割）上不如 SSM 模型，说明纯卷积的全局建模能力确实有局限
论文未讨论最新的 Mamba-2 等改进 SSM 是否能改变结论
双向 SSM（bidirectional branches）虽然不完美，但论文对其分析略显简单——每个 branch 仍然是 causal 不代表组合后还是 causal

评分¶

新颖性: ⭐⭐⭐⭐ 概念分析框架新颖，但模型本身无太多创新
实验充分度: ⭐⭐⭐⭐ 覆盖分类/检测/分割，多尺度对比全面，但缺少更多任务验证
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，从理论到实验环环相扣，致敬 Kobe "Mamba Out" 的立意也很有趣
价值: ⭐⭐⭐⭐ 为 Mamba for Vision 提供了重要反思和 baseline，但不影响 Mamba 在长序列任务中的价值