SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree¶
会议: ICCV 2025
arXiv: 2410.16268
代码: https://github.com/Mark12Ding/SAM2Long
领域: 分割 / 视频目标分割
关键词: SAM 2, 长视频分割, 记忆树, 错误累积, 遮挡恢复, training-free
一句话总结¶
针对SAM 2在长视频中因贪心选择策略导致的错误累积问题,提出一种training-free的约束树搜索记忆策略,维护多条分割路径并在视频级别选择最优结果,在9个VOS和3个VOT benchmark上平均提升3.7 J&F,长视频场景最高提升5.3。
背景与动机¶
SAM 2是目前最强的视频目标分割基础模型,其核心设计是memory模块——利用之前帧的记忆来提示当前帧的分割。但SAM 2采用贪心策略:每帧只选预测IoU最高的一个mask存入记忆。这在简单场景下没问题,但当遇到遮挡或物体重现时,一旦选错了mask,错误就会通过记忆传播到后续所有帧("错误累积"),导致跟踪丢失且不可恢复。视频越长,这个问题越严重——SAM 2在长视频后段的性能显著下降。
核心问题¶
如何在不重新训练SAM 2的前提下,解决其贪心记忆选择导致的错误累积问题,使其能在长视频、频繁遮挡等复杂场景下保持稳定的分割跟踪?
方法详解¶
整体框架¶
SAM2Long完全基于SAM 2,不修改任何模型参数、不引入新参数、不需要训练。核心改变是将SAM 2的单路径贪心记忆替换为多路径约束树搜索记忆。在每帧维护P条并行的分割路径(每条有独立的memory bank和累积分数),最终选累积分数最高的路径作为输出。
关键设计¶
-
约束树记忆搜索(Constrained Tree Memory):SAM 2的decoder在每帧会生成3个候选mask。SAM2Long维护P条路径,每条在当前帧分叉为3个候选分支,共产生3P个候选。然后用累积对数IoU分数(\(S_{p,k}[t] = S_p[t-1] + \log(\text{IoU}_{t}^{p,k} + \epsilon)\))排序,只保留top-P条路径继续。这类似beam search,但在整个视频维度上搜索最优分割序列。实验表明P=3就足够(仅14% FPS下降,8% GFlops增加,4%显存增加)。
-
不确定性感知的多样性保持:当所有路径都不确定时(所有路径的最大绝对遮挡分数 < 阈值δ_conf=2),强制选择具有不同预测IoU值的mask候选(通过四舍五入到两位小数判断是否"不同"),防止所有路径收敛到同一个错误预测。实验验证:四舍五入后候选mask之间的实际IoU从84.5%降到51.4%,显著增加了多样性。
-
目标感知的记忆库构建:不像SAM 2简单存最近N帧,而是向前遍历筛选满足\(\text{IoU}_i > \delta_\text{IoU}\)且\(o_i > 0\)(遮挡分数为正表示物体存在)的帧。同时用遮挡分数调制记忆注意力权重(可靠帧权重更高),使模型聚焦于物体明确可见的记忆帧。
损失函数 / 训练策略¶
完全training-free,不修改任何参数。超参数:P=3, δ_conf=2, δ_IoU=0.3, [w_low, w_high]=[0.95, 1.05]。这些超参在所有数据集上使用同一组值,消融实验表明对超参不敏感。
实验关键数据¶
| 数据集 | 平均时长 | SAM 2.1-L (J&F) | SAM2.1Long-L (J&F) | 提升 |
|---|---|---|---|---|
| SA-V val | 13.8s | 78.6 | 81.1 | +2.5 |
| SA-V test | 13.8s | 79.6 | 81.2 | +1.6 |
| LVOS v1 | 95.4s | 80.2 | 83.4 | +3.2 |
| LVOS v2 | 68.4s | 84.1 | 85.9 | +1.8 |
| MOSE | 12.4s | 74.5 | 75.2 | +0.7 |
| DAVIS-17 | 1.8s | 90.1 | 90.2 | +0.1 |
- SAM2Long-L在SA-V test上提升5.3(SAM2版本),SAM2Long-S在SA-V val上提升4.7
- 跨12组实验平均提升3.7 J&F
- 性能增益与视频时长正相关:长视频(LVOS 95s)提升3.2,短视频(DAVIS 1.8s)几乎不变
- 在VOT benchmark (LaSOT/GOT-10k)上也有竞争力表现
消融实验要点¶
- P=1即SAM 2 baseline,P=2立即提升4 J&F,P=3最优,P=4无额外收益
- 速度开销很小:P=3时19 FPS vs P=1时22 FPS,仅14%减速
- 不确定性处理的IoU四舍五入使候选mask多样性从84.5%降到51.4%(实际IoU),贡献+0.4 J&F
- 记忆帧选择中,基于IoU过滤优于额外的时间或空间选择
- 记忆注意力调制最优范围为[0.95, 1.05],微幅调制即可
亮点¶
- 洞察精准:SAM 2的mask decoder本身就会生成多个候选mask,但原始方法只用一个。SAM2Long的核心洞察是"不急着做决定",保留多个假设到最后再选
- 受MHT启发的设计:将多假设跟踪(Multiple Hypothesis Tracking)引入视频分割,用约束beam search优雅地解决了错误累积
- 完全免训练:不修改模型、不加参数、不需额外数据,纯粹释放SAM 2自身的潜力
- 开销极小:image encoder只跑一次,多路径只增加轻量级decoder的计算,14% FPS代价换4.5 J&F提升
- 性能增益与视频长度正相关:完美验证了设计初衷
局限性 / 可改进方向¶
- 性能上限受SAM 2本身约束——如果SAM 2的3个候选mask都不正确,SAM2Long也无法恢复
- 主要针对单目标设计,多目标场景虽然也work但还有优化空间
- 当背景剧烈变化且存在干扰物时仍会失败(缺乏语义理解能力)
- P=3固定路径数可能对不同复杂度的视频不够灵活,自适应路径数是一个方向
与相关工作的对比¶
- vs. SAM 2:SAM2Long是SAM 2的plug-in增强,核心差异在记忆策略(多路径树搜索 vs 单路径贪心)
- vs. XMem/Cutie:这些方法在特征级别设计记忆,SAM2Long在mask级别选择最优记忆路径,两者互补
- vs. MHT方法:借鉴tracking社区的多假设思想,但创新性地应用在分割记忆管理上
启发与关联¶
- 约束树搜索的思想与LLaVA-CoT的SWIRES有异曲同工之处——都是在"阶段性决策"上延迟确定、保留多个假设
- 这种"不急着做决定"的策略可以迁移到其他sequential prediction任务
- 与ideas/segmentation/中的视频分割相关idea可以结合
评分¶
- 新颖性: ⭐⭐⭐⭐ MHT思想在VOS中的新应用,不确定性感知的多样性保持设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 9个VOS + 3个VOT benchmark,多个模型尺寸(T/S/B+/L)和版本(SAM2/2.1)全覆盖,消融非常详尽
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,per-frame性能曲线图直观展示了错误累积和恢复
- 价值: ⭐⭐⭐⭐⭐ 即插即用提升SAM 2,对社区极其实用,已是SAM 2长视频应用的标准增强方案