SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs¶
会议: CVPR 2026
arXiv: 2603.12382
代码: 无
领域: 语义分割
关键词: 视频像素级定位, 参考视频目标分割, 时间一致性, 双提示解码, 多模态大语言模型
一句话总结¶
提出 SPARROW 框架,通过 目标特定追踪特征(TSF) 注入时间一致性监督、双提示([BOX]+[SEG])粗到细解码 稳定首帧初始化,以即插即用方式集成到现有视频 MLLM 上,在 6 个基准 3 个任务上取得一致提升。
研究背景与动机¶
1. 领域现状¶
多模态大语言模型(MLLMs)在图像级视觉推理与像素级定位方面取得进展,LISA / PixelLM 等方法通过 [SEG] token 实现语言条件化分割。但将这些方法扩展到视频领域时面临运动动态、遮挡和时间一致性等额外挑战。
2. 痛点¶
现有视频 MLLM(VideoGLaMM、UniPixel、GLUS)主要依赖静态 [SEG] token 进行逐帧推理:
- 时间漂移与身份切换:文本提示是静态的,但视频是动态的,模型需要完全从视觉线索推断运动和外观变化,导致同一目标在不同帧间分割不一致
- 首帧初始化不可靠:[SEG] token 仅提供语义线索而无空间先验,首帧 mask 可能与目标错位,误差逐帧累积
3. 核心矛盾¶
静态语义 token 无法编码目标随时间变化的位置与外观信息;首帧定位一旦出错,后续所有帧的分割都会受到误差传播影响。
4. 要解决什么¶
在不修改基础模型架构的前提下,同时解决 (i) 时间参考一致性(身份保持)和 (ii) 首帧空间精度(减少漂移)两个问题。
5. 切入角度¶
从追踪得到的目标特定特征中提炼时间监督信号(训练时注入,推理时可去除);引入 [BOX] 几何先验与 [SEG] 语义先验的双提示协同解码机制。
6. 核心 idea¶
- TSF:离线用检测+追踪得到目标轨迹,K-means 选代表性子集,编码为 TSF token 注入训练,让模型学习身份持久性
- 双提示:[BOX] 条件化类无关 proposal 产生空间先验 → [SEG] 在此基础上用 SAM2 精细分割,形成粗到细流程
方法详解¶
整体框架¶
SPARROW 的流程:双分支视觉编码器(空间 ℱg + 时间 ℱh)→ V→L 适配器 → LoRA 微调的 LLM → L→V 适配器 → SAM2 像素解码器。LLM 输出 [BOX] 和 [SEG] token,分别投影回视觉空间驱动 bounding box 回归和 mask 解码。所有新增模块均为即插即用,不修改骨干网络。
关键设计 1:目标特定追踪特征(TSF)¶
做什么:在训练时为模型提供时间对齐的目标特定参考线索,使模型学会跨帧身份保持。
核心思路: 1. 给定文本 query,GroundingDINO 在某一帧检测目标,CLDTracker 跨帧传播得到候选框序列 B'_1...B'_K' 2. 在联合视觉-空间特征空间上做 K-means 聚类(K=4),选取最近质心的样本构成紧凑子集 B_1...B_K 3. 用图像编码器 ℱg 编码这些区域,经 V→L 适配器投影为 Z_TSF token,拼接到多模态输入中
设计动机:参考 Artemis 的发现——追踪目标特定特征可改善时间一致性。K-means 选择确保每个代表样本覆盖同一目标的不同外观,且减少冗余。关键点在于:推理时默认不使用 TSF(无需外部检测器/追踪器),模型已从训练中内化了时间一致性。
数据集构建:整合 HC-STVG、VID-Sentence、A2D Sentences、LaSOT、MeViS、GOT-10k、Ref-SAV 等多个公开数据集,统一为 30,646 个视频序列、45,231 个 Q&A 对,提供时间一致的轨迹、bbox 和分割 mask。
关键设计 2:双提示定位(Dual-Prompt Grounding)¶
做什么:将 [BOX] 和 [SEG] 结合实现粗到细定位,稳定首帧并缓解漂移。
[BOX] 分支: 1. LLM 输出 [BOX] embedding e_BOX,经 L→V 适配器 Wb 投影 2. 基于 SAM2/Hiera 冻结特征构建类无关 proposer(Deformable-DETR 结构,单一 objectness head),生成 K=300 个 proposal 3. e_BOX 与每个 proposal 特征做 cross-attention 融合 → 经 filtration head 打分 → 对 top-M 候选做文本条件化 bbox 回归精修 4. 最终置信度融合语言和视觉分数,阈值过滤得到 B*
[SEG] 分支: LLM 输出 [SEG] embedding e_SEG,与筛选后的 b_hat 组成 mask query 送入 SAM2 prompt encoder,每个空间先验产生实例级 mask。当 |B*|>1 时自然支持多实例输出。
设计动机:仅用 [SEG] 时首帧容易定位模糊;[BOX] 先提供几何约束,[SEG] 在此基础上做语义精修,两者互补。在任意帧重新发出 [BOX]+[SEG] 还可实现漂移校正。
损失函数 / 训练策略¶
两阶段训练:
Stage 1 — TSF 信息注入:训练 V→L 适配器 (Wg, Wh)、L→V SEG 适配器 Ws、LLM LoRA 参数,骨干和像素解码器冻结。损失:L_total = L_CE + L_BCE + L_DICE。
Stage 2 — Box Prompt 学习: - 先独立预训练类无关 proposer(D-DETR head,在 COCO/Objects365/OpenImages/V3Det 上训练,丢弃类别标签)。损失:L_prop = L_obj + λ1·L_ℓ1 + λ2·L_GIoU - 再微调 filtration head + L→V BOX 适配器 Wb,其余全部冻结。损失:L_filter = λ_cls·L_BCE + λ_box·(L_ℓ1 + L_GIoU),其中 λ_cls=1.0, λ_box=2.0
实验关键数据¶
主实验¶
在 3 个视频 MLLM 基线(UniPixel、GLUS、VideoGLaMM)上分别集成 SPARROW,涵盖 RVOS、VG、GCG 三个任务。
表 1:MeViS 参考视频目标分割(运动表达式)
| 方法 | val J&F | val^u J&F |
|---|---|---|
| UniPixel | 53.1 | 59.7 |
| + SPARROW | 54.4 (+1.3) | 60.7 (+1.0) |
| GLUS | 51.3 | 59.8 |
| + SPARROW | 53.2 (+1.9) | 61.9 (+0.3) |
| VideoGLaMM | 45.2 | 48.5 |
| + SPARROW | 47.5 (+2.3) | 57.4 (+8.9) |
表 2:Ref-YTVOS & Ref-DAVIS17 参考视频目标分割
| 方法 | Ref-YTVOS J&F | Ref-DAVIS17 J&F |
|---|---|---|
| UniPixel | 70.5 | 74.2 |
| + SPARROW | 70.7 (+0.2) | 76.4 (+2.2) |
| GLUS | 67.3 | 72.9 |
| + SPARROW | 69.1 (+1.8) | 75.5 (+2.6) |
| VideoGLaMM | 66.8 | 69.5 |
| + SPARROW | 68.9 (+2.1) | 76.8 (+7.3) |
VideoGLaMM 在 Ref-DAVIS17 上 F(边界质量)提升高达 +14.5,所有集成 SPARROW 的模型 F 均超过 80。
表 3:VideoGCG 视频定位对话生成
| 方法 | mIoU | Recall | CLAIR |
|---|---|---|---|
| UniPixel | 52.0 | 0.311 | 26.0 |
| + SPARROW | 54.5 (+2.5) | 0.325 | 29.4 (+3.4) |
| VideoGLaMM | 62.34 | 0.375 | 28.2 |
| + SPARROW | 65.59 (+3.25) | 0.383 | 33.6 (+5.4) |
消融实验¶
基于 Ref-DAVIS17 (val) + VideoGLaMM 基线。
TSF 与 BOX 联合消融(J&F):
| TSF 模式 | BOX OFF | BOX ON |
|---|---|---|
| 无 TSF | 69.5 (baseline) | 72.5 (+3.0) |
| 仅训练时(默认) | 72.4 (+2.9) | 76.8 (+7.3) |
| 训练+推理 | 75.3 (+5.8) | 77.7 (+8.2) |
提示组合消融:[SEG] only 69.5、[BOX] only 68.2、[BOX]+[SEG] 72.5(+3.0),证实双提示互补性。
关键发现¶
- TSF 仅在训练时使用即可带来 +2.9 提升,无需推理时的检测器/追踪器开销
- [BOX] 提示单独贡献 +3.0,与 TSF 叠加呈近似可加效果(+7.3)
- VideoGLaMM 上收益最大(MeViS val^u +8.9, Ref-DAVIS17 +7.3),说明基线越弱,改进空间越大
- VidSTG(视觉定位)任务上三个基线均获得约 +5 mIoU 的一致提升
亮点与洞察¶
- 即插即用设计:SPARROW 不修改基线骨干/LLM,仅通过轻量适配器和 proposal head 集成,成功应用于 3 个不同架构的视频 MLLM,具有很强的通用性
- 训练时追踪、推理时免追踪:TSF 的核心洞察是利用伪追踪监督在训练阶段注入时间一致性先验,模型内化后推理时无需外部追踪器,大幅降低部署成本
- 粗到细双提示:[BOX] 提供几何约束、[SEG] 提供语义精修,二者在信息维度上正交互补,类似于检测后分割的两阶段思路但通过 token 优雅实现
- 大规模数据集构建:整合 7 个公开数据源形成 30K+ 视频的统一训练集,填补了目标中心时间定位数据的空白
局限性 / 可改进方向¶
- 依赖 proposal 召回:小目标、严重遮挡或未见类别若 proposal 未覆盖则无法恢复,recall 是瓶颈
- 长视频误差累积:早期 [BOX] 错误仍可能在长序列中传播,虽然双提示缓解了但未完全消除
- TSF 伪标签质量:依赖 GroundingDINO + CLDTracker 生成伪追踪,严重噪声/ID 切换会影响训练
- 未来方向:更高召回的 proposal 方法、在线校正机制、更强的追踪监督信号
相关工作与启发¶
- Artemis:启发了 TSF 中"追踪目标特定特征提升时间一致性"的思路
- Groma:启发了用 box prompting 增强细粒度视觉定位的双提示设计
- VideoGLaMM / UniPixel / GLUS:三个不同设计理念的基线,SPARROW 均能集成并提升,验证了通用性
- 与 SAM2 的结合方式值得借鉴:利用 Hiera 冻结特征做 proposal,保持 prompt encoder 接口不变
评分¶
⭐⭐⭐⭐ 工程导向强、方法模块化设计优雅、实验覆盖全面(3基线×6数据集),但核心技术(proposal+追踪伪标签)创新性中等,更多是已有组件的精巧组合。