Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency¶

会议: CVPR 2025
arXiv: 2410.07599
代码: https://github.com/wangf3014/Adventurer
领域: 模型架构 / 视觉骨干网络
关键词: Vision Mamba, 因果图像建模, 线性复杂度, 状态空间模型, 高效视觉架构

一句话总结¶

提出 Adventurer 系列视觉模型，通过"头部平均池化 token"和"层间翻转"两个简单设计将图像输入适配到单向因果扫描框架中，使 Mamba 架构在视觉任务上实现 4-6 倍于现有 Vision Mamba 的训练速度，同时保持与 ViT 相当甚至更优的精度。

研究背景与动机¶

领域现状：Vision Transformer (ViT) 是当前主流的视觉骨干网络，但其自注意力机制的二次复杂度在处理高分辨率、细粒度图像时面临严重的计算和内存瓶颈。Mamba 等状态空间模型 (SSM) 因线性复杂度被引入视觉领域，但现有 Vision Mamba 架构（如 Vim、VMamba）通常需要多路扫描来弥补因果建模的信息不均衡问题。

现有痛点：多路扫描虽然不显著增加参数量，但实际计算量和推理时间成倍增加，导致 Vision Mamba 在实际训练速度上甚至不如 ViT。例如 Vim-Base 的训练吞吐量仅为约 200 images/s，远低于 DeiT-Base 的 861 images/s。

核心矛盾：因果建模中的信息不均衡问题——序列尾部的 token 能聚合前面所有 token 的信息，而序列头部的 token 缺乏全局上下文，形成严重的表征质量差异。现有方案用多路扫描解决这个问题，但牺牲了效率。

本文目标 如何在只使用单向扫描的前提下，解决因果视觉建模中的信息不均衡问题，从而真正释放 Mamba 的线性复杂度优势。

切入角度：作者从人眼的扫视机制 (Saccade Mechanism) 获得启发——人眼每次只能聚焦很小的区域，通过快速扫视来理解复杂场景，与因果建模的单向扫描方式天然契合。

核心 idea：用头部平均 token 提供全局信息起点 + 层间翻转消除位置偏差，仅用单向扫描就能达到多路扫描的效果。

方法详解¶

整体框架¶

Adventurer 遵循 ViT 的基本架构：图像分块 → patch embedding → 位置编码 → L 个因果 block → class token 分类。每个 block 由一个因果 token mixer（默认 Mamba-2）和一个 channel mixer（SwiGLU MLP）组成。关键不同在于两处改造：(1) 每层输入前插入一个全局平均池化 token 作为序列起点；(2) 每两层之间翻转 patch token 序列顺序。class token 放在序列末尾。

关键设计¶

Heading Average（头部平均 token）:
- 功能：为因果序列提供全局上下文起点，解决序列头部 token 信息匮乏问题
- 核心思路：在每一层的输入开头插入一个平均 token \(x_{\text{AVG}} = \frac{1}{n+1}\sum_j x_j\)，它压缩了所有 patch token 的全局信息。因果扫描时，序列中的每个 token 都能至少通过这个头部 token "看到"全局概况。每层处理完毕后丢弃该 token 的输出，在下一层重新计算——确保每层都有最新的全局信息
- 设计动机：直接解决因果建模中头部 token 无法获取后方信息的根本问题。实验对比了多种替代方案（复制 cls token、可学习新 token、多个细粒度 token），全局平均效果最好且最简单
Inter-Layer Flipping（层间翻转）:
- 功能：消除因位置差异导致的信息不均衡，使模型学到方向不变的特征
- 核心思路：每两个 block 之间，将 patch token 序列反转（cls token 位置不变）。这样原本处于序列头部（信息较少）的 token，在下一层变成尾部（信息最丰富），反之亦然。交替进行的扫描方向使每个 token 在不同层中交替获得不同方向的上下文
- 设计动机：相比多路扫描（2 路、4 路），层间翻转不增加任何计算量（翻转本身几乎零开销），但能达到相似的性能。实验表明翻转比头部平均贡献更大（+0.9% vs +0.5%），可能因为翻转还额外促进了方向不变特征的学习
Mamba-2 Token Mixer + SwiGLU Channel Mixer:
- 功能：提供高效的序列建模和通道混合
- 核心思路：Token mixer 采用 Mamba-2（结构化 SSM 的最新版本）替代自注意力，扩展比 2x，特征维度为 256 的倍数以充分利用并行效率。Channel mixer 采用 SwiGLU MLP，隐层维度为输入的 2.5x（而非标准 MLP 的 4x），在减少计算量的同时通过门控机制增强表达能力
- 设计动机：消融实验显示纯 Mamba 层（无 channel mixer）虽然可行但速度慢 1.3x，且精度略低。SwiGLU MLP 比标准 MLP 效果更好（+0.1~0.2%），且线性层对硬件更友好

损失函数 / 训练策略¶

采用多阶段训练：300 epoch 在 128×128 预训练 → 100 epoch 在 224×224 训练 → 20 epoch 在 224×224 微调（更强数据增强和更高 drop path rate）。等效约 230 epoch 的 224×224 训练，优于常用的 300 epoch 方案。

实验关键数据¶

主实验¶

模型	Token Mixer	输入	参数量	吞吐量 (img/s)	ImageNet Acc
DeiT-Small	Self-Attn	224	22M	1924	79.8%
Vim-Small	Mamba	224	26M	395	80.5%
MambaReg-S	Mamba	224	28M	391	81.4%
Adventurer-Small	Mamba	224	44M	1405	81.8%
DeiT-Base	Self-Attn	224	86M	861	81.8%
Vim-Base*	Mamba	224	98M	~200	~81.9%
Adventurer-Base	Mamba	224	99M	856	82.6%
DeiT-Base	Self-Attn	384	86M	201	83.1%
Adventurer-Base	Mamba	448	99M	216	84.3%

下游任务（ADE20k 语义分割 / COCO 检测）：Adventurer-Base 在 ADE20k 上达 46.6% mIoU（同等速度下最优），COCO 上 AP^b 48.4%。

消融实验¶

配置	Tiny Acc	Small Acc	Base Acc
Naive Causal (无 HA/ILF)	-	80.3%	-
+ Heading Average	-	80.8% (+0.5)	-
+ Inter-Layer Flipping	-	81.2% (+0.9)	-
+ Both (完整模型)	78.2%	81.8% (+1.5)	82.6%
DeiT Causal → +Both	78.8→79.9	-	-
DeiT Standard (非因果)	79.9	-	-

Channel mixer 消融：纯 Mamba 层 81.6%，+标准 MLP 81.7%，+SwiGLU 81.8%（Small）。

关键发现¶

层间翻转 (ILF) 的贡献约为头部平均 (HA) 的两倍（+0.9 vs +0.5），且两者互补
配合 HA+ILF 后，因果 DeiT 完全匹配标准 DeiT 的精度，证明因果建模不损失表达能力
在 1280×1280 高分辨率下，Adventurer-Base 比 ViT-Base 快 11.7x、省内存 14.0x
随着 patch 大小减小（序列变长），Adventurer 精度持续提升且速度优势更加显著

亮点与洞察¶

单向扫描等效多路扫描：用零计算开销的层间翻转替代计算量翻倍的多路扫描，是非常优雅的工程与理论结合。这个思路可以迁移到任何需要双向信息流的序列模型
因果建模 = 标准 ViT 精度：消融实验严格证明了配合简单机制后，因果模型完全不损失表达能力，暗示标准 ViT 的全可见注意力中约一半计算是冗余的
高分辨率场景的杀手级优势：随着输入分辨率增加，二次复杂度的 ViT 急剧变慢，而 Adventurer 的线性复杂度使其能在 3000+ token 序列上以 5x 速度运行

局限与展望¶

模型仅在 ImageNet-1k 上训练，未探索大规模预训练（如 ImageNet-21K 或自监督预训练）的效果
位置编码仍用简单可学习矩阵，未针对因果场景优化（如 RoPE 等旋转位置编码）
当前只验证了分类、分割、检测任务，未涉及生成式任务或多模态场景
SwiGLU MLP 的 2.5x 扩展比是经验选择，缺乏系统的超参搜索

评分¶

新颖性: ⭐⭐⭐⭐ 核心创新（HA+ILF）简单但有效，思路清晰
实验充分度: ⭐⭐⭐⭐⭐ 分类/分割/检测全覆盖，消融详尽
写作质量: ⭐⭐⭐⭐⭐ 火炬探险者的比喻生动，结构清晰
价值: ⭐⭐⭐⭐ 对高分辨率视觉任务有实际价值，但需要更多大规模验证