Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval¶

会议: ICLR 2026
arXiv: 2602.08224
代码: GitHub
领域: segmentation / efficient inference
关键词: SAM2, video object segmentation, post-training acceleration, sparse attention, memory compression

一句话总结¶

提出 Efficient-SAM2，通过对象感知的稀疏窗口路由(SWR)和稀疏记忆检索(SMR)两个后训练加速方案，利用 SAM2 本身的稀疏感知模式消除冗余计算，在 SAM2.1-L 上实现 1.68× 加速且仅损失 1.0% 精度。

背景与动机¶

SAM2 在视频分割中表现优异，但计算开销大，限制实时部署
主要瓶颈在图像编码器和记忆注意力模块
现有方法(EdgeTAM)需要昂贵的端到端重训练
Token merge 方法(ToMe)与 SAM2 的窗口注意力架构不兼容
关键观察1: 解码器注意力集中在前景目标，但编码器注意力分布广泛→编码冗余
关键观察2: 记忆帧中仅少量 token 贡献显著，且显著性模式时间一致→记忆冗余

方法详解¶

Sparse Window Routing (SWR) — 图像编码器加速: - 窗口级计算分配：将窗口分为目标相关 vs 背景 - 目标相关窗口 = 上一帧预测掩码覆盖区域 + 高注意力显著性窗口 - 背景窗口路由到轻量 shortcut 分支（两层线性层，参数仅 \(d^2+2d\)） - shortcut 用 30 个无标签样本的重建损失训练，~1h 完成

Sparse Memory Retrieval (SMR) — 记忆注意力加速: - 每个记忆帧首次参与注意力时缓存其显著性模式(Top-K token) - 后续帧复用该模式，仅保留显著 token 参与计算 - 最新帧保持完整，提示帧不变 - 稀疏率 \(s=0.95\)，整体稀疏率约 0.68

实验关键数据¶

方法	SA-V test J&F	编码器加速	记忆加速
SAM2.1-L 原始	79.2	-	-
ToMe	56.4	1.36×	-
SWR (ours)	76.9	1.83×	-
MemPool	73.8	-	2.14×
SMR (ours)	79.0	-	1.78×
SWR+SMR	78.2	1.68× (端到端)	-

SAM2.1-B+ 上：SWR 1.69× 加速 (75.0 vs 77.7)，SMR 1.82× 加速 (77.8 vs 77.7，几乎无损)
DAVIS 2017：SWR+SMR 几乎无性能下降 (89.4 vs 89.7)
对比 EdgeTAM(蒸馏法)：Efficient-SAM2 无需重训练，性能更高

亮点¶

后训练加速: 无需端到端重训练，轻量 shortcut 仅需 30 样本 1 小时训练
与 SAM2 架构天然匹配: SWR 在窗口级操作，与窗口注意力完美兼容
SMR 几乎无损: 稀疏率 95% 下记忆检索精度几乎不降
两模块独立且可叠加: SWR 和 SMR 可分别使用也可组合

局限性¶

依赖上一帧预测质量来估计目标窗口，跟踪失败时可能级联恶化
仅在半监督 VOS 设置下评估，未验证交互式/推理式分割
shortcut 分支设计较简单，可能在复杂背景下信息丢失
稀疏率是固定超参，未探索自适应稀疏

评分¶

新颖性: ⭐⭐⭐⭐ (从 SAM2 稀疏感知出发设计加速方案)
实验充分度: ⭐⭐⭐⭐ (4 个 benchmark + 两种模型规模 + 消融)
写作质量: ⭐⭐⭐⭐ (观察-方案对应清晰)
价值: ⭐⭐⭐⭐⭐ (实用性极强，后训练加速 SAM2 有广泛需求)