SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs¶

会议: CVPR 2025
arXiv: 2603.12382
代码: 待确认
领域: 分割
关键词: 视频分割, 视频MLLM, 时序一致性, 像素级grounding, 双提示机制

一句话总结¶

提出SPARROW框架，通过目标特定跟踪特征(TSF)和双提示(BOX+SEG)机制，解决视频MLLM中时序引用一致性差和首帧初始化不稳定的问题，在6个基准上对3个主流视频MLLM均取得一致提升。

研究背景与动机¶

领域现状：多模态大语言模型(MLLM)在图像级别的像素grounding已经取得很好的效果，但将其扩展到视频领域面临运动动态、遮挡和时序一致性的挑战。
现有痛点：现有视频MLLM（如VideoGLaMM、UniPixel、GLUS）依赖静态的[SEG]文本token进行逐帧grounding，只传达"看什么"的语义信息，无法捕捉目标在时间维度上的位置和外观变化。这导致空间漂移（目标分割随时间偏移）、身份切换（同一目标在不同帧被错误关联）和引用不一致（同一语言描述在不同帧指向不同区域）。
核心矛盾：文本提示是静态的而视频是动态的，模型必须完全依赖视觉线索推断运动和外观变化，缺乏显式时序引用机制。同时首帧初始化不稳定（[SEG]只提供语义线索无空间先验），错误沿时间传播累积。
本文要解决什么？ (i) 时序引用一致性——如何在帧间保持目标身份不漂移；(ii) 首帧grounding鲁棒性——如何给出准确的初始定位避免误差传播。
切入角度：从跟踪的角度注入时序对齐的目标特征做训练监督，同时用粗到精的双提示稳定初始化。
核心idea一句话：用离线跟踪生成的目标特征做训练时时序监督(TSF)，配合BOX+SEG双提示做推理时粗到精grounding，实现即插即用的视频MLLM增强。

方法详解¶

整体框架¶

输入为视频 \(\mathbf{V} \in \mathbb{R}^{T_v \times H \times W \times C}\) 和文本查询 \(Q\)。视频经双分支编码器（空间编码器 \(\mathcal{F}_g\) + 时序编码器 \(\mathcal{F}_h\)）提取特征，通过V→L适配器投射到LLM嵌入空间。LLM（LoRA微调）输出[BOX]和[SEG]两个grounding token，分别通过L→V适配器投射回视觉空间，驱动class-agnostic proposer和SAM2解码器生成最终分割mask。全流程即插即用，不修改基础LLM和视觉骨干。

关键设计¶

目标特定跟踪特征 (TSF):
做什么：在训练时注入时序对齐的目标级特征，教会模型跨帧保持目标身份
核心思路：给定文本查询，用GroundingDINO在某帧检测目标，CLDTracker跨帧传播得到轨迹框。为减少冗余，在联合视觉-空间特征空间做K-means聚类（\(K=4\)），取最近质心样本作为代表子集。对区域编码后投射为TSF token拼接到LLM输入中
设计动机：静态[SEG] token无法编码运动信息。TSF提供多样化目标外观表示（不同帧、不同姿态），使模型在训练阶段学会身份持久性。推理时默认不使用TSF即无需外部检测器/跟踪器
配套数据集：整合7个公开数据集共30,646视频序列、45,231个QA对
双提示Grounding (Dual-Prompt):
做什么：结合[BOX]空间先验和[SEG]语义grounding，实现粗到精的分割
核心思路：LLM输出[BOX] embedding驱动class-agnostic proposer生成K=300个候选框，通过cross-attention融合语言和视觉特征后打分筛选并回归精化。筛选出的高置信框与[SEG] embedding一起送入SAM2解码器生成精细mask
设计动机：单纯用[SEG]初始化首帧不稳定漂移后难以恢复，[BOX]提供粗粒度几何约束，[SEG]做语义精化。自然支持多实例查询
Class-Agnostic Proposer:
做什么：在冻结的Hiera特征上生成category-free候选框
核心思路：多尺度Hiera特征构建FPN，送入Deformable-DETR解码器，分类分支替换为单一objectness头。在COCO、Objects365、OpenImages、V3Det上预训练
设计动机：与外部检测器解耦，轻量且不需要类别监督

损失函数 / 训练策略¶

两阶段训练： - Stage 1 (TSF注入)：训练V→L适配器、L→V SEG适配器和LoRA。损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{CE}} + \mathcal{L}_{\text{BCE}} + \mathcal{L}_{\text{DICE}}\) - Stage 2 (BOX学习)：冻结Stage 1，先预训练proposer，再微调Filtration Head和L→V BOX适配器。\(\lambda_{\text{cls}}=1.0\)，\(\lambda_{\text{box}}=2.0\)

实验关键数据¶

主实验¶

基准	指标	基线(VideoGLaMM)	+SPARROW	提升
MeViS val	J&F	45.2	47.5	+2.3
MeViS val^u	J&F	48.5	57.4	+8.9
Ref-DAVIS17	J&F	69.5	76.8	+7.3
Ref-YTVOS	J&F	66.8	68.9	+2.1
VidSTG	mIoU	39.66	45.06	+5.4
VideoGCG	mIoU	62.34	65.59	+3.25

对更强基线也有一致提升：UniPixel上Ref-DAVIS17 +2.2；GLUS上Ref-DAVIS17 +2.6。

消融实验（Ref-DAVIS17, VideoGLaMM基线）¶

配置	J&F	说明
Baseline	69.5	无TSF无BOX
+ TSF(train only)	72.4 (+2.9)	TSF训练监督有效
+ BOX only	72.5 (+3.0)	双提示有效
+ TSF(train) + BOX	76.8 (+7.3)	默认配置，两者互补
+ TSF(train+infer) + BOX	77.7 (+8.2)	推理时也用TSF最强
[SEG] only推理	69.5	单提示弱
[BOX]+[SEG]推理	72.5 (+3.0)	双提示协同增益显著

关键发现¶

TSF即使推理时不使用也能带来+2.9提升，说明模型通过训练已内化了时序一致性能力
BOX+SEG双提示比任一单提示高3个点以上
对弱基线(VideoGLaMM)提升最大（MeViS val^u上+8.9），对强基线也有稳定提升
Filtration Head用[BOX]特征监督比[SEG]特征好1.9个点

亮点与洞察¶

即插即用设计：TSF和Dual-Prompt作为轻量模块可无缝集成到任意视频MLLM，不修改骨干网络，在3个不同架构上都验证了效果
训练-推理解耦：TSF在训练时用伪跟踪信号监督，推理时可以去掉（默认配置），不增加推理开销但保留性能提升
粗到精的双提示：[BOX]→[SEG]的级联设计同时解决了"定位不准"和"边界不清"两个问题，自然支持多实例查询

局限性 / 可改进方向¶

依赖proposal recall：小物体、严重遮挡或unseen物体可能被proposer漏掉，后续BOX/SEG无法恢复
TSF依赖GroundingDINO和CLDTracker的伪跟踪标注，跟踪噪声或ID切换可能引入偏差
长序列中早期BOX错误仍可能累积，缺少显式纠错机制

评分¶

新颖性: ⭐⭐⭐⭐ TSF+双提示的组合在视频MLLM中是新颖的，但各组件单独看不完全新
实验充分度: ⭐⭐⭐⭐⭐ 3个基线×6个数据集×详细消融，非常充分
写作质量: ⭐⭐⭐⭐ 结构清晰，动机阐述充分
价值: ⭐⭐⭐⭐ 即插即用设计实用性强，但提升幅度在强基线上有限