Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency¶
会议: CVPR 2025
arXiv: 2410.07599
代码: https://github.com/wangf3014/Adventurer
领域: 模型架构 / 视觉骨干网络
关键词: Vision Mamba, 因果图像建模, 线性复杂度, 状态空间模型, 高效视觉架构
一句话总结¶
提出 Adventurer 系列视觉模型,通过"头部平均池化 token"和"层间翻转"两个简单设计将图像输入适配到单向因果扫描框架中,使 Mamba 架构在视觉任务上实现 4-6 倍于现有 Vision Mamba 的训练速度,同时保持与 ViT 相当甚至更优的精度。
研究背景与动机¶
领域现状:Vision Transformer (ViT) 是当前主流的视觉骨干网络,但其自注意力机制的二次复杂度在处理高分辨率、细粒度图像时面临严重的计算和内存瓶颈。Mamba 等状态空间模型 (SSM) 因线性复杂度被引入视觉领域,但现有 Vision Mamba 架构(如 Vim、VMamba)通常需要多路扫描来弥补因果建模的信息不均衡问题。
现有痛点:多路扫描虽然不显著增加参数量,但实际计算量和推理时间成倍增加,导致 Vision Mamba 在实际训练速度上甚至不如 ViT。例如 Vim-Base 的训练吞吐量仅为约 200 images/s,远低于 DeiT-Base 的 861 images/s。
核心矛盾:因果建模中的信息不均衡问题——序列尾部的 token 能聚合前面所有 token 的信息,而序列头部的 token 缺乏全局上下文,形成严重的表征质量差异。现有方案用多路扫描解决这个问题,但牺牲了效率。
本文目标 如何在只使用单向扫描的前提下,解决因果视觉建模中的信息不均衡问题,从而真正释放 Mamba 的线性复杂度优势。
切入角度:作者从人眼的扫视机制 (Saccade Mechanism) 获得启发——人眼每次只能聚焦很小的区域,通过快速扫视来理解复杂场景,与因果建模的单向扫描方式天然契合。
核心 idea:用头部平均 token 提供全局信息起点 + 层间翻转消除位置偏差,仅用单向扫描就能达到多路扫描的效果。
方法详解¶
整体框架¶
Adventurer 遵循 ViT 的基本架构:图像分块 → patch embedding → 位置编码 → L 个因果 block → class token 分类。每个 block 由一个因果 token mixer(默认 Mamba-2)和一个 channel mixer(SwiGLU MLP)组成。关键不同在于两处改造:(1) 每层输入前插入一个全局平均池化 token 作为序列起点;(2) 每两层之间翻转 patch token 序列顺序。class token 放在序列末尾。
关键设计¶
-
Heading Average(头部平均 token):
- 功能:为因果序列提供全局上下文起点,解决序列头部 token 信息匮乏问题
- 核心思路:在每一层的输入开头插入一个平均 token \(x_{\text{AVG}} = \frac{1}{n+1}\sum_j x_j\),它压缩了所有 patch token 的全局信息。因果扫描时,序列中的每个 token 都能至少通过这个头部 token "看到"全局概况。每层处理完毕后丢弃该 token 的输出,在下一层重新计算——确保每层都有最新的全局信息
- 设计动机:直接解决因果建模中头部 token 无法获取后方信息的根本问题。实验对比了多种替代方案(复制 cls token、可学习新 token、多个细粒度 token),全局平均效果最好且最简单
-
Inter-Layer Flipping(层间翻转):
- 功能:消除因位置差异导致的信息不均衡,使模型学到方向不变的特征
- 核心思路:每两个 block 之间,将 patch token 序列反转(cls token 位置不变)。这样原本处于序列头部(信息较少)的 token,在下一层变成尾部(信息最丰富),反之亦然。交替进行的扫描方向使每个 token 在不同层中交替获得不同方向的上下文
- 设计动机:相比多路扫描(2 路、4 路),层间翻转不增加任何计算量(翻转本身几乎零开销),但能达到相似的性能。实验表明翻转比头部平均贡献更大(+0.9% vs +0.5%),可能因为翻转还额外促进了方向不变特征的学习
-
Mamba-2 Token Mixer + SwiGLU Channel Mixer:
- 功能:提供高效的序列建模和通道混合
- 核心思路:Token mixer 采用 Mamba-2(结构化 SSM 的最新版本)替代自注意力,扩展比 2x,特征维度为 256 的倍数以充分利用并行效率。Channel mixer 采用 SwiGLU MLP,隐层维度为输入的 2.5x(而非标准 MLP 的 4x),在减少计算量的同时通过门控机制增强表达能力
- 设计动机:消融实验显示纯 Mamba 层(无 channel mixer)虽然可行但速度慢 1.3x,且精度略低。SwiGLU MLP 比标准 MLP 效果更好(+0.1~0.2%),且线性层对硬件更友好
损失函数 / 训练策略¶
采用多阶段训练:300 epoch 在 128×128 预训练 → 100 epoch 在 224×224 训练 → 20 epoch 在 224×224 微调(更强数据增强和更高 drop path rate)。等效约 230 epoch 的 224×224 训练,优于常用的 300 epoch 方案。
实验关键数据¶
主实验¶
| 模型 | Token Mixer | 输入 | 参数量 | 吞吐量 (img/s) | ImageNet Acc |
|---|---|---|---|---|---|
| DeiT-Small | Self-Attn | 224 | 22M | 1924 | 79.8% |
| Vim-Small | Mamba | 224 | 26M | 395 | 80.5% |
| MambaReg-S | Mamba | 224 | 28M | 391 | 81.4% |
| Adventurer-Small | Mamba | 224 | 44M | 1405 | 81.8% |
| DeiT-Base | Self-Attn | 224 | 86M | 861 | 81.8% |
| Vim-Base* | Mamba | 224 | 98M | ~200 | ~81.9% |
| Adventurer-Base | Mamba | 224 | 99M | 856 | 82.6% |
| DeiT-Base | Self-Attn | 384 | 86M | 201 | 83.1% |
| Adventurer-Base | Mamba | 448 | 99M | 216 | 84.3% |
下游任务(ADE20k 语义分割 / COCO 检测):Adventurer-Base 在 ADE20k 上达 46.6% mIoU(同等速度下最优),COCO 上 AP^b 48.4%。
消融实验¶
| 配置 | Tiny Acc | Small Acc | Base Acc |
|---|---|---|---|
| Naive Causal (无 HA/ILF) | - | 80.3% | - |
| + Heading Average | - | 80.8% (+0.5) | - |
| + Inter-Layer Flipping | - | 81.2% (+0.9) | - |
| + Both (完整模型) | 78.2% | 81.8% (+1.5) | 82.6% |
| DeiT Causal → +Both | 78.8→79.9 | - | - |
| DeiT Standard (非因果) | 79.9 | - | - |
Channel mixer 消融:纯 Mamba 层 81.6%,+标准 MLP 81.7%,+SwiGLU 81.8%(Small)。
关键发现¶
- 层间翻转 (ILF) 的贡献约为头部平均 (HA) 的两倍(+0.9 vs +0.5),且两者互补
- 配合 HA+ILF 后,因果 DeiT 完全匹配标准 DeiT 的精度,证明因果建模不损失表达能力
- 在 1280×1280 高分辨率下,Adventurer-Base 比 ViT-Base 快 11.7x、省内存 14.0x
- 随着 patch 大小减小(序列变长),Adventurer 精度持续提升且速度优势更加显著
亮点与洞察¶
- 单向扫描等效多路扫描:用零计算开销的层间翻转替代计算量翻倍的多路扫描,是非常优雅的工程与理论结合。这个思路可以迁移到任何需要双向信息流的序列模型
- 因果建模 = 标准 ViT 精度:消融实验严格证明了配合简单机制后,因果模型完全不损失表达能力,暗示标准 ViT 的全可见注意力中约一半计算是冗余的
- 高分辨率场景的杀手级优势:随着输入分辨率增加,二次复杂度的 ViT 急剧变慢,而 Adventurer 的线性复杂度使其能在 3000+ token 序列上以 5x 速度运行
局限与展望¶
- 模型仅在 ImageNet-1k 上训练,未探索大规模预训练(如 ImageNet-21K 或自监督预训练)的效果
- 位置编码仍用简单可学习矩阵,未针对因果场景优化(如 RoPE 等旋转位置编码)
- 当前只验证了分类、分割、检测任务,未涉及生成式任务或多模态场景
- SwiGLU MLP 的 2.5x 扩展比是经验选择,缺乏系统的超参搜索
相关工作与启发¶
- vs Vim: Vim 使用前向+后向双路扫描,Adventurer 用层间翻转的单路扫描达到相似效果但快 4-5x
- vs VMamba: VMamba 结合 Mamba 和 2D 卷积进行多方向扫描,结构更复杂,Adventurer 更简洁高效
- vs MambaReg: MambaReg 引入注册 token 并多路扫描,精度略高但训练成本 3-4x
- 对高分辨率视觉理解(如医学图像、遥感图像)有直接应用价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 核心创新(HA+ILF)简单但有效,思路清晰
- 实验充分度: ⭐⭐⭐⭐⭐ 分类/分割/检测全覆盖,消融详尽
- 写作质量: ⭐⭐⭐⭐⭐ 火炬探险者的比喻生动,结构清晰
- 价值: ⭐⭐⭐⭐ 对高分辨率视觉任务有实际价值,但需要更多大规模验证
相关论文¶
- [ECCV 2024] Learning Chain of Counterfactual Thought for Bias-Robust Vision-Language Reasoning
- [CVPR 2025] Image Quality Assessment: Investigating Causal Perceptual Effects with Abductive Counterfactual Inference
- [CVPR 2025] Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding
- [CVPR 2025] FG-VCE: Towards Fine-Grained Interpretability — Counterfactual Explanations for Misclassification with Saliency Partition
- [CVPR 2025] Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception