跳转至

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

会议: ICCV 2025
arXiv: 2410.16268
代码: https://github.com/Mark12Ding/SAM2Long
领域: 分割 / 视频目标分割
关键词: SAM 2, 长视频分割, 记忆树, 错误累积, 遮挡恢复, training-free

一句话总结

针对SAM 2在长视频中因贪心选择策略导致的错误累积问题,提出一种training-free的约束树搜索记忆策略,维护多条分割路径并在视频级别选择最优结果,在9个VOS和3个VOT benchmark上平均提升3.7 J&F,长视频场景最高提升5.3。

背景与动机

SAM 2是目前最强的视频目标分割基础模型,其核心设计是memory模块——利用之前帧的记忆来提示当前帧的分割。但SAM 2采用贪心策略:每帧只选预测IoU最高的一个mask存入记忆。这在简单场景下没问题,但当遇到遮挡或物体重现时,一旦选错了mask,错误就会通过记忆传播到后续所有帧("错误累积"),导致跟踪丢失且不可恢复。视频越长,这个问题越严重——SAM 2在长视频后段的性能显著下降。

核心问题

如何在不重新训练SAM 2的前提下,解决其贪心记忆选择导致的错误累积问题,使其能在长视频、频繁遮挡等复杂场景下保持稳定的分割跟踪?

方法详解

整体框架

SAM2Long完全基于SAM 2,不修改任何模型参数、不引入新参数、不需要训练。核心改变是将SAM 2的单路径贪心记忆替换为多路径约束树搜索记忆。在每帧维护P条并行的分割路径(每条有独立的memory bank和累积分数),最终选累积分数最高的路径作为输出。

关键设计

  1. 约束树记忆搜索(Constrained Tree Memory):SAM 2的decoder在每帧会生成3个候选mask。SAM2Long维护P条路径,每条在当前帧分叉为3个候选分支,共产生3P个候选。然后用累积对数IoU分数(\(S_{p,k}[t] = S_p[t-1] + \log(\text{IoU}_{t}^{p,k} + \epsilon)\))排序,只保留top-P条路径继续。这类似beam search,但在整个视频维度上搜索最优分割序列。实验表明P=3就足够(仅14% FPS下降,8% GFlops增加,4%显存增加)。

  2. 不确定性感知的多样性保持:当所有路径都不确定时(所有路径的最大绝对遮挡分数 < 阈值δ_conf=2),强制选择具有不同预测IoU值的mask候选(通过四舍五入到两位小数判断是否"不同"),防止所有路径收敛到同一个错误预测。实验验证:四舍五入后候选mask之间的实际IoU从84.5%降到51.4%,显著增加了多样性。

  3. 目标感知的记忆库构建:不像SAM 2简单存最近N帧,而是向前遍历筛选满足\(\text{IoU}_i > \delta_\text{IoU}\)\(o_i > 0\)(遮挡分数为正表示物体存在)的帧。同时用遮挡分数调制记忆注意力权重(可靠帧权重更高),使模型聚焦于物体明确可见的记忆帧。

损失函数 / 训练策略

完全training-free,不修改任何参数。超参数:P=3, δ_conf=2, δ_IoU=0.3, [w_low, w_high]=[0.95, 1.05]。这些超参在所有数据集上使用同一组值,消融实验表明对超参不敏感。

实验关键数据

数据集 平均时长 SAM 2.1-L (J&F) SAM2.1Long-L (J&F) 提升
SA-V val 13.8s 78.6 81.1 +2.5
SA-V test 13.8s 79.6 81.2 +1.6
LVOS v1 95.4s 80.2 83.4 +3.2
LVOS v2 68.4s 84.1 85.9 +1.8
MOSE 12.4s 74.5 75.2 +0.7
DAVIS-17 1.8s 90.1 90.2 +0.1
  • SAM2Long-L在SA-V test上提升5.3(SAM2版本),SAM2Long-S在SA-V val上提升4.7
  • 跨12组实验平均提升3.7 J&F
  • 性能增益与视频时长正相关:长视频(LVOS 95s)提升3.2,短视频(DAVIS 1.8s)几乎不变
  • 在VOT benchmark (LaSOT/GOT-10k)上也有竞争力表现

消融实验要点

  • P=1即SAM 2 baseline,P=2立即提升4 J&F,P=3最优,P=4无额外收益
  • 速度开销很小:P=3时19 FPS vs P=1时22 FPS,仅14%减速
  • 不确定性处理的IoU四舍五入使候选mask多样性从84.5%降到51.4%(实际IoU),贡献+0.4 J&F
  • 记忆帧选择中,基于IoU过滤优于额外的时间或空间选择
  • 记忆注意力调制最优范围为[0.95, 1.05],微幅调制即可

亮点

  • 洞察精准:SAM 2的mask decoder本身就会生成多个候选mask,但原始方法只用一个。SAM2Long的核心洞察是"不急着做决定",保留多个假设到最后再选
  • 受MHT启发的设计:将多假设跟踪(Multiple Hypothesis Tracking)引入视频分割,用约束beam search优雅地解决了错误累积
  • 完全免训练:不修改模型、不加参数、不需额外数据,纯粹释放SAM 2自身的潜力
  • 开销极小:image encoder只跑一次,多路径只增加轻量级decoder的计算,14% FPS代价换4.5 J&F提升
  • 性能增益与视频长度正相关:完美验证了设计初衷

局限性 / 可改进方向

  • 性能上限受SAM 2本身约束——如果SAM 2的3个候选mask都不正确,SAM2Long也无法恢复
  • 主要针对单目标设计,多目标场景虽然也work但还有优化空间
  • 当背景剧烈变化且存在干扰物时仍会失败(缺乏语义理解能力)
  • P=3固定路径数可能对不同复杂度的视频不够灵活,自适应路径数是一个方向

与相关工作的对比

  • vs. SAM 2:SAM2Long是SAM 2的plug-in增强,核心差异在记忆策略(多路径树搜索 vs 单路径贪心)
  • vs. XMem/Cutie:这些方法在特征级别设计记忆,SAM2Long在mask级别选择最优记忆路径,两者互补
  • vs. MHT方法:借鉴tracking社区的多假设思想,但创新性地应用在分割记忆管理上

启发与关联

  • 约束树搜索的思想与LLaVA-CoT的SWIRES有异曲同工之处——都是在"阶段性决策"上延迟确定、保留多个假设
  • 这种"不急着做决定"的策略可以迁移到其他sequential prediction任务
  • 与ideas/segmentation/中的视频分割相关idea可以结合

评分

  • 新颖性: ⭐⭐⭐⭐ MHT思想在VOS中的新应用,不确定性感知的多样性保持设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 9个VOS + 3个VOT benchmark,多个模型尺寸(T/S/B+/L)和版本(SAM2/2.1)全覆盖,消融非常详尽
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,per-frame性能曲线图直观展示了错误累积和恢复
  • 价值: ⭐⭐⭐⭐⭐ 即插即用提升SAM 2,对社区极其实用,已是SAM 2长视频应用的标准增强方案