ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations¶

会议: ICCV 2025
arXiv: 2501.14607
代码: 项目页面
领域: 图像分割
关键词: 指代视频目标分割, 视觉定位, GroundingDINO, 可变形注意力, 查询剪枝

一句话总结¶

提出ReferDINO，通过将GroundingDINO视觉定位基础模型端到端适配到指代视频目标分割（RVOS）任务，设计定位引导可变形掩码解码器、目标一致性时序增强器和置信度查询剪枝策略，在五个基准上显著超越SOTA（Ref-YouTube-VOS上+3.9% \(\mathcal{J}\&\mathcal{F}\)），并实现51 FPS实时推理。

研究背景与动机¶

指代视频目标分割（RVOS）根据文本描述在视频中分割目标物体，需要深度视觉-语言理解、像素级密集预测和时空推理三方面能力。现有方法面临以下核心问题：

视觉-语言能力不足：现有RVOS模型在处理复杂属性描述（如"形状+颜色"组合）时常混淆相似物体，根源在于RVOS数据规模有限

视觉定位基础模型的局限：GroundingDINO虽有强大的目标级VL理解，但(a)只会画框不会做掩码（缺乏像素级密集预测），(b)无法理解动态属性（如"摇尾巴的猫"）

效率瓶颈：GroundingDINO使用900个查询，逐帧处理视频计算量巨大

非端到端集成问题：已有方法（如Grounded-SAM-2）将GroundingDINO和SAM2串联使用，但非端到端、不可微分，无法进一步优化

核心动机：需要一种端到端方法，将GroundingDINO的开放世界定位知识（区域级VL对齐）与像素级分割和时空推理能力无缝结合。

方法详解¶

整体框架¶

ReferDINO在GroundingDINO基础上新增三个模块： 1. 置信度查询剪枝 → 减少每帧计算 2. 目标一致性时序增强器 → 跨帧交互 3. 定位引导可变形掩码解码器 → 生成高质量掩码

工作流：视频逐帧送入GroundingDINO → 查询剪枝 → 收集各帧目标特征 → 时序增强 → 掩码解码 → 输出掩码序列。

关键设计¶

定位引导可变形掩码解码器：
- 核心设计：将框预测和掩码预测级联为 grounding-deformation-segmentation 流水线，而非简单并行
- 用预测框的中心 \(\{b_x, b_y\}\) 直接作为可变形注意力的参考点，将定位先验注入掩码预测
- 目标特征 \(\tilde{\boldsymbol{o}}\) 作为Query，FPN高分辨率特征 \(\boldsymbol{F}_{\text{seg}}\) 作为Memory
- 采样过程通过双线性插值实现，端到端可微分，分割梯度可以回传优化框预测
- 再通过跨模态注意力（Query=目标特征, K/V=文本特征）过滤背景噪声
- 对比Dynamic Mask Head：后者为每个目标存储独立的高分辨率特征图，内存开销巨大；ReferDINO在共享特征图上通过位置引导采样，零额外内存
- 解码器由 \(L_m\) 个Block组成，每个Block = 可变形交叉注意力 + 跨模态注意力
目标一致性时序增强器：
- 由记忆增强追踪器 + 跨模态时序解码器组成
- 记忆增强追踪器：用匈牙利算法基于余弦相似度对齐相邻帧目标，动量更新记忆 \(\mathcal{M}^t = (1 - \alpha \cdot \boldsymbol{c}^t) \cdot \mathcal{M}^{t-1} + \alpha \cdot \boldsymbol{c}^t \cdot \hat{\mathcal{O}}^t\)，其中 \(\boldsymbol{c}^t\) 为目标与文本的相似度，防止目标不可见的帧污染长期记忆
- 跨模态时序解码器：注入时变文本特征 \(\{\boldsymbol{f}_{\text{cls}}^t\}\) 作为帧代理进行帧间交互，而非使用静态文本嵌入；通过时序自注意力 + 跨注意力（文本为Query，目标为K/V）提取动态信息
- 设计动机：(a)GroundingDINO是逐帧独立的，缺乏时序一致性；(b)之前方法用静态文本嵌入，无法捕捉动态变化（如动作描述）
置信度查询剪枝：
- 在跨模态解码器的每层逐步裁减低置信度查询
- 置信度由两项组成：\(s_j = \frac{1}{N_l-1}\sum_{i \neq j} \boldsymbol{A}^s_{ij} + \max_k \boldsymbol{A}^c_{kj}\)
  - 第一项：j-th查询被其他查询关注的平均程度（不可替代性）
  - 第二项：j-th目标在文本中被提及的最大概率
- 每层保留 \(1/k\) 高置信度查询，最终 \(N_s \ll N_q=900\)
- 将解码器时间复杂度从 \(O(L \cdot N^2 d)\) 降为 \(O(\frac{k^2}{k^2-1} N^2 d)\)，独立于深度 \(L\)
- \(k=2\) 时解码器计算量降至24.7%

损失函数 / 训练策略¶

匈牙利匹配选择最低cost的预测序列作为正样本
总损失 \(\mathcal{L}_{\text{total}} = \lambda_{\text{cls}}\mathcal{L}_{\text{cls}} + \lambda_{\text{box}}\mathcal{L}_{\text{box}} + \lambda_{\text{mask}}\mathcal{L}_{\text{mask}}\)
\(\mathcal{L}_{\text{cls}}\): focal loss; \(\mathcal{L}_{\text{box}}\): L1 + GIoU; \(\mathcal{L}_{\text{mask}}\): DICE + binary focal + projection loss
冻结骨干网络，使用LoRA（rank=32）微调跨模态Transformer
先在RefCOCO/+/g图像数据上预训练，再在RVOS数据上微调

实验关键数据¶

主实验¶

数据集	指标	ReferDINO (Swin-T)	DsHmp (CVPR'24)	SOC (NeurIPS'23)	提升
Ref-YouTube-VOS	\(\mathcal{J}\&\mathcal{F}\)	67.5	63.6	62.4	+3.9
MeViS	\(\mathcal{J}\&\mathcal{F}\)	48.0	46.4	-	+1.6
Ref-DAVIS17	\(\mathcal{J}\&\mathcal{F}\)	66.7	64.0	63.5	+2.7
Ref-YouTube-VOS (Swin-B)	\(\mathcal{J}\&\mathcal{F}\)	69.3	67.1	66.0	+2.2
MeViS (Swin-B)	\(\mathcal{J}\&\mathcal{F}\)	49.3	-	-	-

消融实验¶

配置	\(\mathcal{J}\&\mathcal{F}\) (MeViS)	说明
ReferDINO	48.0	完整模型
w/o CMA（去掉跨模态注意力）	47.6 (-0.4)	跨模态过滤有辅助作用
w/o DCA（去掉可变形交叉注意力）	45.3 (-2.7)	定位引导采样是核心
w/o Tracker	47.6 (-0.4)	追踪器提供时序一致性
w/o Temporal Decoder	45.8 (-2.2)	时序解码器是关键
50% 查询剪枝	67.5 (vs 67.6全量)	性能无损，FLOPs降40.6%
Random 50% 剪枝	38.3 (-29.3)	随机剪枝灾难性下降

关键发现¶

Swin-T版ReferDINO就超越了使用Swin-B骨干的GroundingDINO baseline（67.5 vs 66.7 \(\mathcal{J}\&\mathcal{F}\)）
查询剪枝策略实现了10倍加速（4.9→51 FPS），同时性能几乎无损
定位引导可变形注意力（DCA）贡献最大（-2.7%），验证了框先验对掩码质量的重要性
在G-DINO+SH/DH两个baseline上的对比表明，简单适配无法充分释放基础模型潜力

亮点与洞察¶

端到端适配范式：首个将GroundingDINO端到端适配到RVOS的工作，框和掩码可微分联合优化
定位→掩码级联设计：巧妙利用预训练的框预测作为空间先验引导掩码生成，优于并行设计
时变文本嵌入：利用GroundingDINO的跨模态编码器产生逐帧不同的文本表征，比静态文本更好捕捉时序动态
查询剪枝的巧妙设计：复用解码器自注意力权重计算置信度，零额外计算开销
实时性能：51 FPS的推理速度使其可应用于实时视频场景

局限与展望¶

骨干网络冻结 + LoRA微调可能限制了对特定RVOS场景的适配深度
记忆增强追踪器使用动量更新，长视频中可能存在漂移问题
仅支持单目标RVOS（MeViS用阈值选择多目标），多目标场景扩展性未充分验证
未探讨与SAM2等分割基础模型的结合可能性

评分¶

新颖性: ⭐⭐⭐⭐ 端到端适配基础模型的范式有新意，定位→掩码级联设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 五个数据集+两种骨干+详细消融+效率分析，非常全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，motivation和method对应紧密，图表优质
价值: ⭐⭐⭐⭐⭐ 在RVOS上建立新SOTA同时实现实时推理，实用价值极高