SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs¶

会议: CVPR 2026
arXiv: 2603.12382
代码: github.com/RISys-Lab/SPARROW
领域: 视频理解 / 像素级视频MLLM
关键词: 视频MLLM, 像素级定位, 时序一致性, 目标跟踪特征, 双提示定位

一句话总结¶

SPARROW通过目标特定跟踪特征(TSF)和双提示[BOX]+[SEG]定位机制增强视频MLLM的时空一致性，在MeViS上J&F +8.9、VidSTG上mIoU +5.49，可即插即用到三种backbone上。

像素级视频MLLM用静态[SEG] token做逐帧定位，但缺乏时序上下文，导致空间漂移、身份切换和不稳定初始化。从图像级定位扩展到时序一致的视频理解仍是关键挑战。

静态分割token提供语义但无时序/几何先验，导致跨帧指称不一致和误差传播。

基于UniPixel/GLUS/VideoGLaMM三种视频MLLM，加两个即插即用模块+30,646视频的策划数据集。

TSF(目标特定跟踪特征): GroundingDINO检测→CLDTracker传播→K-means选4个多样外观→裁剪特征投影为TSF token。训练时提供时序身份监督，推理时可选。
双提示定位: [BOX] token条件化Deformable-DETR做粗空间先验；[SEG] token通过SAM2解码器精细化mask。粗到细设计稳定首帧并减少漂移。
两阶段训练: Stage 1注入TSF到adapters+LoRA；Stage 2训练筛选头做box prompt学习。仅+0.017B参数。

策划30,646视频、45,231 Q&A对的训练数据集。