Segment Any Motion in Videos¶

会议: CVPR 2025
arXiv: 2503.22268
代码: https://motion-seg.github.io/
领域: 视频理解 / 分割
关键词: 运动物体分割, 长程轨迹, SAM2, 语义-运动解耦, 视频理解

一句话总结¶

本文提出了一种结合长程点轨迹运动线索、DINO 语义特征和 SAM2 像素级掩码致密化的运动物体分割方法，通过时空轨迹注意力和运动-语义解耦嵌入，在多个基准上显著超越了基于光流的传统方法，尤其在细粒度多物体分割场景中表现出色。

研究背景与动机¶

领域现状：运动物体分割（MOS）是视频理解的核心任务，要求将视频中有独立运动的物体从背景和相机运动中分离出来。传统方法大量依赖光流提供运动线索，但光流本质上是短程的两帧匹配，容易受到遮挡、运动模糊和亮度变化的影响。

现有痛点：基于光流的方法存在三大问题：（1）短程性——光流只覆盖相邻帧，对缓慢运动或长期遮挡无能为力；（2）深度歧义——很难区分物体独立运动和由深度差异引起的视差运动；（3）分割质量差——生成的掩码几何完整性不高。基于轨迹的方法则主要依赖仿射矩阵的谱聚类，难以捕获全局一致性和复杂运动模式。

核心矛盾：运动线索和语义线索各有优劣——纯运动线索难以区分相机运动和物体运动（特别是剧烈相机运动场景），纯语义线索则无法区分同一类别的运动和静止物体。如何有效融合两类信息是关键难题。

本文目标：用长程点轨迹替代光流作为运动线索，结合 DINO 语义特征作为补充，并利用 SAM2 的强大分割能力生成高质量的逐物体掩码。

切入角度：长程点轨迹（BootsTAP 生成）天然具备抗遮挡和抗形变能力；DINO 特征的自监督性质保证了跨域泛化；SAM2 可基于点提示进行分割和跟踪。三者的巧妙组合形成了一个强大的统一框架。

核心 idea：训练一个 transformer 模型接收长程轨迹和 DINO 特征，通过运动-语义解耦的嵌入方式预测每条轨迹的动态标签，然后用这些轨迹作为 SAM2 的点提示，通过迭代提示策略生成逐物体的精细掩码。

方法详解¶

整体框架¶

整体 pipeline 分为三个阶段： 1. 运动模式编码（Motion Pattern Encoding）：用 BootsTAP 生成长程 2D 轨迹和 Depth-Anything 估计深度图，通过时空轨迹注意力编码器提取运动特征 2. 逐轨迹运动预测（Per-trajectory Motion Prediction）：通过运动-语义解耦嵌入的 transformer 解码器，结合 DINO 特征，预测每条轨迹是否对应运动物体 3. SAM2 迭代提示（SAM2 Iterative Prompting）：用被识别为动态的轨迹作为 SAM2 的点提示，通过两阶段迭代策略生成逐物体的像素级掩码

关键设计¶

时空轨迹注意力 (Spatio-Temporal Trajectory Attention):
- 功能：在编码器中交替执行空间注意力和时间注意力，捕获轨迹间的空间关系和单条轨迹内的时间动态
- 核心思路：输入是长程轨迹的增强表示，包括归一化像素坐标 \((u_i, v_i)\)、帧间差分 \((\Delta u_i, \Delta v_i)\)、深度 \(d_i\)、深度差分 \(\Delta d_i\)、可见性 \(\rho_i\) 和置信度 \(c_i\)。对坐标使用 NeRF 式频率编码应对过平滑问题。注意力层交替在轨迹维度（空间）和时间维度操作，最后通过时间维度上的 max-pooling 获取每条轨迹的单一特征向量
- 设计动机：标准注意力机制无法同时高效建模空间关系和时间动态，交替注意力设计解决了这一问题。频率编码避免了空间相近的采样点特征被过度平滑
运动-语义解耦嵌入 (Motion-Semantic Decoupled Embedding):
- 功能：在解码器中平衡运动和语义信息的使用，优先运动线索，语义作为辅助
- 核心思路：编码器层仅对嵌入轨迹（只含运动信息）做注意力，计算完注意力加权特征后再拼接 DINO 特征并通过 feed-forward 层。在解码器层，self-attention 仍只作用于运动特征，但 multi-head attention 会关注包含语义信息的 memory。最终通过 sigmoid 输出每条轨迹的动态概率
- 设计动机：简单将 DINO 特征作为输入会让模型过度依赖语义——例如把同一类别的静态物体也判为动态。解耦设计确保模型"以运动为主、语义为辅"，避免语义过拟合
SAM2 迭代提示策略 (SAM2 Iterative Prompting):
- 功能：将稀疏的动态轨迹点转化为逐物体的像素级密集掩码
- 核心思路：分两阶段。第一阶段（物体分组）：在可见点最多的帧中找最密集点作为 SAM2 的初始提示，生成掩码后膨胀扩展边界，将掩码内的点标记为同一物体，然后排除这些点继续处理剩余点，直到所有点被分组。第二阶段（掩码精化）：用每组轨迹中最密集的点和最远的两点作为提示，间隔性地提示 SAM2 防止长距离跟踪丢失，最后后处理合并重叠掩码
- 设计动机：SAM2 需要物体 ID 作为输入，不能将所有动态物体分配同一 ID。迭代分组策略解决了多物体区分问题

损失函数 / 训练策略¶

使用加权二元交叉熵损失训练轨迹分类模型。Ground truth 标签通过检查轨迹采样点是否落在动态掩码内来生成。

训练数据混合三个数据集：Kubric（合成，35%）、Dynamic Replica（合成，35%）、HOI4D（真实世界，30%）。Dynamic Replica 中 300 帧以 1/4 间隔采样以加速训练，同时保留大范围相机运动的特征。

实验关键数据¶

主实验¶

运动物体分割（MOS, 所有前景合并评估）：

方法	运动线索	语义线索	DAVIS16-Moving \(\mathcal{J\&F}\)↑	SegTrackv2 \(\mathcal{J}\)↑	FBMS-59 \(\mathcal{J}\)↑	DAVIS2016 \(\mathcal{J\&F}\)↑
RCF-All	光流	DINO	79.6	79.6	72.4	80.7
OCLR-TTA	光流	RGB	78.5	72.3	69.9	78.8
ABR	光流	DINO	72.0	76.6	81.9	72.5
Ours	轨迹	DINO	89.5	76.3	78.3	90.9

细粒度 MOS（DAVIS17-Moving, 逐物体评估）：

方法	MOS \(\mathcal{J\&F}\)↑	Fine-grained \(\mathcal{J}\)↑	Fine-grained \(\mathcal{F}\)↑
ABR	74.6/75.2	50.9	51.2
OCLR-TTA	76.0/75.3	48.4	49.9
Ours	90.0/89.0	77.4	83.6

消融实验¶

配置	DAVIS17-Moving \(\mathcal{J\&F}\)↑	DAVIS16-Moving \(\mathcal{J\&F}\)↑	说明
Ours-full	80.5	89.1	完整模型
w/o Tracks	19.6	20.9	去掉轨迹后崩溃，证明轨迹是核心
w/o DINO	65.0	75.5	显著下降，语义信息重要补充
w/o MSDE	63.0	78.2	非解耦方式融合语义，性能差
w/o MOE	72.0	81.8	编解码器都融合DINO，过度依赖语义
w/o ST-ATT	65.5	78.3	时空注意力贡献大
w/o Depth	69.2	82.5	深度信息有帮助但非关键
w/o PE	66.4	82.0	频率位置编码有一定贡献

关键发现¶

轨迹是最关键的输入：去掉轨迹后效果直接崩溃至 ~20%，而去掉 DINO 或深度的下降相对温和。这验证了长程轨迹作为运动线索的不可替代性
语义融合方式至关重要：w/o MSDE（不用解耦嵌入直接拼接）比 w/o DINO（完全不用语义）效果更差，说明错误的融合方式比不融合还糟糕
细粒度分割中优势巨大：在 DAVIS17-Moving 上，逐物体分割的 \(\mathcal{J}\) 为 77.4 vs 次优 50.9，提升了 26.5 个点
模型在剧烈相机运动、水面反射、迷彩伪装等极端场景下依然表现稳定

亮点与洞察¶

长程轨迹 × SAM2 的组合堪称优雅：轨迹提供跨帧一致的运动线索并自然作为 SAM2 的点提示，这比光流 → 分割的传统范式在时间一致性上有根本优势
运动-语义解耦嵌入的设计理念有广泛迁移价值：在任何需要融合两种可能冲突的信息源的任务中，让主要信号走主干、辅助信号通过交叉注意力注入是一种有效范式
迭代提示策略中的"找最密集点 → 生成掩码 → 排除 → 迭代"流程，巧妙地将物体计数问题转化为贪心分组问题

局限与展望¶

依赖跟踪估计器质量：BootsTAP 的精度直接影响最终结果
快速出现又消失的物体：如果物体只出现几帧且运动很快，生成的轨迹太短，方法可能失败
主导运动遮蔽微弱运动：场景中如果有大运动物体，微弱运动的物体容易被忽略
部分分割问题：SAM2 有时只分割物体的一部分（如人的衣服而非整体），后处理的合并策略不总能解决
未来可探索更鲁棒的轨迹估计器或引入 3D 轨迹信息

评分¶

新颖性: ⭐⭐⭐⭐ 长程轨迹 + SAM2 + 解耦嵌入的组合新颖，但各组件并非全新
实验充分度: ⭐⭐⭐⭐⭐ 多数据集评估、丰富的消融、定性对比详尽
写作质量: ⭐⭐⭐⭐ 结构清晰，图示有效，limitation 部分坦诚
价值: ⭐⭐⭐⭐⭐ 在细粒度运动分割上的表现令人印象深刻，实用价值高