SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree¶

会议: ICCV 2025
arXiv: 2410.16268
代码: https://github.com/Mark12Ding/SAM2Long
领域: 分割 / 视频目标分割
关键词: SAM 2, 长视频分割, 记忆树, 错误累积, 遮挡恢复, training-free

一句话总结¶

针对SAM 2在长视频中因贪心选择策略导致的错误累积问题，提出一种training-free的约束树搜索记忆策略，维护多条分割路径并在视频级别选择最优结果，在9个VOS和3个VOT benchmark上平均提升3.7 J&F，长视频场景最高提升5.3。

背景与动机¶

SAM 2是目前最强的视频目标分割基础模型，其核心设计是memory模块——利用之前帧的记忆来提示当前帧的分割。但SAM 2采用贪心策略：每帧只选预测IoU最高的一个mask存入记忆。这在简单场景下没问题，但当遇到遮挡或物体重现时，一旦选错了mask，错误就会通过记忆传播到后续所有帧（"错误累积"），导致跟踪丢失且不可恢复。视频越长，这个问题越严重——SAM 2在长视频后段的性能显著下降。

核心问题¶

如何在不重新训练SAM 2的前提下，解决其贪心记忆选择导致的错误累积问题，使其能在长视频、频繁遮挡等复杂场景下保持稳定的分割跟踪？

方法详解¶

整体框架¶

SAM2Long完全基于SAM 2，不修改任何模型参数、不引入新参数、不需要训练。核心改变是将SAM 2的单路径贪心记忆替换为多路径约束树搜索记忆。在每帧维护P条并行的分割路径（每条有独立的memory bank和累积分数），最终选累积分数最高的路径作为输出。

关键设计¶

约束树记忆搜索（Constrained Tree Memory）：SAM 2的decoder在每帧会生成3个候选mask。SAM2Long维护P条路径，每条在当前帧分叉为3个候选分支，共产生3P个候选。然后用累积对数IoU分数（\(S_{p,k}[t] = S_p[t-1] + \log(\text{IoU}_{t}^{p,k} + \epsilon)\)）排序，只保留top-P条路径继续。这类似beam search，但在整个视频维度上搜索最优分割序列。实验表明P=3就足够（仅14% FPS下降，8% GFlops增加，4%显存增加）。
不确定性感知的多样性保持：当所有路径都不确定时（所有路径的最大绝对遮挡分数 < 阈值δ_conf=2），强制选择具有不同预测IoU值的mask候选（通过四舍五入到两位小数判断是否"不同"），防止所有路径收敛到同一个错误预测。实验验证：四舍五入后候选mask之间的实际IoU从84.5%降到51.4%，显著增加了多样性。
目标感知的记忆库构建：不像SAM 2简单存最近N帧，而是向前遍历筛选满足\(\text{IoU}_i > \delta_\text{IoU}\)且\(o_i > 0\)（遮挡分数为正表示物体存在）的帧。同时用遮挡分数调制记忆注意力权重（可靠帧权重更高），使模型聚焦于物体明确可见的记忆帧。

损失函数 / 训练策略¶

完全training-free，不修改任何参数。超参数：P=3, δ_conf=2, δ_IoU=0.3, [w_low, w_high]=[0.95, 1.05]。这些超参在所有数据集上使用同一组值，消融实验表明对超参不敏感。

实验关键数据¶

数据集	平均时长	SAM 2.1-L (J&F)	SAM2.1Long-L (J&F)	提升
SA-V val	13.8s	78.6	81.1	+2.5
SA-V test	13.8s	79.6	81.2	+1.6
LVOS v1	95.4s	80.2	83.4	+3.2
LVOS v2	68.4s	84.1	85.9	+1.8
MOSE	12.4s	74.5	75.2	+0.7
DAVIS-17	1.8s	90.1	90.2	+0.1

SAM2Long-L在SA-V test上提升5.3（SAM2版本），SAM2Long-S在SA-V val上提升4.7
跨12组实验平均提升3.7 J&F
性能增益与视频时长正相关：长视频（LVOS 95s）提升3.2，短视频（DAVIS 1.8s）几乎不变
在VOT benchmark (LaSOT/GOT-10k)上也有竞争力表现

消融实验要点¶

P=1即SAM 2 baseline，P=2立即提升4 J&F，P=3最优，P=4无额外收益
速度开销很小：P=3时19 FPS vs P=1时22 FPS，仅14%减速
不确定性处理的IoU四舍五入使候选mask多样性从84.5%降到51.4%（实际IoU），贡献+0.4 J&F
记忆帧选择中，基于IoU过滤优于额外的时间或空间选择
记忆注意力调制最优范围为[0.95, 1.05]，微幅调制即可

亮点¶

洞察精准：SAM 2的mask decoder本身就会生成多个候选mask，但原始方法只用一个。SAM2Long的核心洞察是"不急着做决定"，保留多个假设到最后再选
受MHT启发的设计：将多假设跟踪(Multiple Hypothesis Tracking)引入视频分割，用约束beam search优雅地解决了错误累积
完全免训练：不修改模型、不加参数、不需额外数据，纯粹释放SAM 2自身的潜力
开销极小：image encoder只跑一次，多路径只增加轻量级decoder的计算，14% FPS代价换4.5 J&F提升
性能增益与视频长度正相关：完美验证了设计初衷

局限性 / 可改进方向¶

性能上限受SAM 2本身约束——如果SAM 2的3个候选mask都不正确，SAM2Long也无法恢复
主要针对单目标设计，多目标场景虽然也work但还有优化空间
当背景剧烈变化且存在干扰物时仍会失败（缺乏语义理解能力）
P=3固定路径数可能对不同复杂度的视频不够灵活，自适应路径数是一个方向

与相关工作的对比¶

vs. SAM 2：SAM2Long是SAM 2的plug-in增强，核心差异在记忆策略（多路径树搜索 vs 单路径贪心）
vs. XMem/Cutie：这些方法在特征级别设计记忆，SAM2Long在mask级别选择最优记忆路径，两者互补
vs. MHT方法：借鉴tracking社区的多假设思想，但创新性地应用在分割记忆管理上

启发与关联¶

约束树搜索的思想与LLaVA-CoT的SWIRES有异曲同工之处——都是在"阶段性决策"上延迟确定、保留多个假设
这种"不急着做决定"的策略可以迁移到其他sequential prediction任务
与ideas/segmentation/中的视频分割相关idea可以结合

评分¶

新颖性: ⭐⭐⭐⭐ MHT思想在VOS中的新应用，不确定性感知的多样性保持设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 9个VOS + 3个VOT benchmark，多个模型尺寸(T/S/B+/L)和版本(SAM2/2.1)全覆盖，消融非常详尽
写作质量: ⭐⭐⭐⭐ 问题定义清晰，per-frame性能曲线图直观展示了错误累积和恢复
价值: ⭐⭐⭐⭐⭐ 即插即用提升SAM 2，对社区极其实用，已是SAM 2长视频应用的标准增强方案