Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation¶

会议: ECCV 2024
arXiv: 2403.12042
代码: https://github.com/buxiangzhiren/VD-IT (有)
领域: 多模态VLM
关键词: 文本引导视频物体分割, Text-to-Video扩散模型, 时序一致性, 视频理解, 特征提取

一句话总结¶

VD-IT首次探索预训练T2V扩散模型（ModelScopeT2V）在视频理解任务中的应用，通过Text-Guided Image Projection和Video-specific Noise Prediction设计，从固定T2V模型中提取语义对齐、时序一致的视频特征，在Referring VOS任务上超越传统判别式backbone。

研究背景与动机¶

领域现状：Referring Video Object Segmentation（R-VOS）是根据自然语言描述在视频中分割特定物体的任务。现有方法以SgMg等为代表，使用判别式预训练的Video Swin Transformer作为视频backbone，再与文本驱动的mask decoder联合微调。
现有痛点：(1) 判别式预训练（如分类任务）的视频backbone在时序一致性方面表现不佳，光照变化等因素导致跨帧特征不稳定；(2) backbone需要联合微调，增加计算成本且可能破坏预训练知识；(3) 判别式特征缺乏文本语义对齐能力。
核心矛盾：R-VOS需要同时满足时序一致性（同一物体跨帧特征稳定）和空间精度（精细mask边界），但判别式backbone在这两方面存在trade-off。
本文要解决什么？ 验证T2V生成模型学到的表示是否天然具备语义对齐和时序一致性，并设计专门框架将其用于视频理解。
切入角度：秉持"What I cannot create, I do not understand"的原则——能基于文本生成时序一致视频的模型，必然包含足够的视频理解知识。T2V模型用全局文本作为条件指导帧生成，天然保证了时序语义一致性。
核心idea一句话：固定预训练T2V扩散模型作为特征提取器，通过同时使用文本和图像token作为条件提取兼具时序一致性和细节丰富性的视频特征。

方法详解¶

整体框架¶

VD-IT分两部分：(1) 视频特征提取——将视频帧和referring text输入固定的T2V扩散模型（ModelScopeT2V），通过一步低噪声前向+UNet前传提取多尺度视频特征；(2) Mask预测头——从文本提取instance query，与视频特征融合生成最终分割mask。

关键设计¶

Text-Guided Image Projection:
- 做什么：同时使用referring text和每帧视觉token作为T2V模型的条件prompt
- 核心思路：CLIP视觉模型提取每帧的visual token，T2V文本编码器提取referring text token。用text-guided交叉注意力将文本语义注入视觉token：\(p_{ve,t} = MLP(p_e + Softmax(\frac{p_e W^Q (p_{v,t} W^K)^T}{\sqrt{d_k}}) p_{v,t} W^V)\)
- 设计动机：只用文本prompt（VD-T）缺乏细粒度实例信息导致mask边界粗糙；只用视觉token（VD-I）会引入语义噪声导致实例混淆。结合两者，文本确保时序语义一致，视觉token提供实例细节
Video-specific Noise Prediction:
- 做什么：预测视频相关的噪声替代标准高斯噪声，保留特征保真度
- 核心思路：将视频latent送入卷积层后归一化生成预测噪声：\(n_t = (f_{n,t} W^N - \mu(f_{n,t} W^N)) / (\sigma(f_{n,t} W^N) + \epsilon)\)，然后将这个去相关噪声以最小强度（step=0）添加到视频latent
- 设计动机：标准高斯噪声会模糊关键细节且与视频内容不相关。预测视频相关噪声既满足扩散模型输入要求，又最大程度保留原始视频信号
Mask预测头:
- 做什么：从文本中匹配实例，与视频特征融合生成分割mask
- 核心思路：可学习instance query与RoBERTa提取的文本特征做交叉注意力得到实例表示；通过Deformable Transformer编码器-解码器与多尺度视频特征融合；最终通过bbox头+分类头+动态卷积mask头输出预测
- 设计动机：遵循query-based分割范式，与提取的视频特征格式兼容

损失函数 / 训练策略¶

使用Dice loss + Focal loss用于mask，Focal loss用于分类置信度，L1 + GIoU loss用于bbox。固定T2V模型参数，只训练Image Projection模块、噪声预测模块和mask预测头。2块A100训练9个epoch。

实验关键数据¶

主实验¶

方法	Backbone	Ref-YouTube-VOS J&F	Ref-DAVIS17 J&F
SgMg	V-Swin	61.6	63.3
OnlineRefer	V-Swin	62.9	64.8
VD-IT	T2V Diffusion	64.8	69.4

消融实验¶

配置	Ref-YouTube J&F	说明
VD-T (只用文本)	59.2	低层特征缺细节
VD-I (只用图像)	62.1	实例混淆问题
VD-IT (文本+图像)	64.8	兼具两者优势
VD-IT w/ Gaussian噪声	62.8	细节模糊
VD-IT w/ 预测噪声	64.8	保真度更高

关键发现¶

T2V扩散特征的时序一致性显著优于判别式backbone：K-Means聚类可视化表明V-Swin特征受光照影响变化剧烈，而VD-IT特征跨帧高度一致
文本条件是时序一致性的关键：VD-I（无文本）特征虽然细节丰富但存在实例混淆，加入文本后VD-IT显著改善
生成模型的去噪能力增强了鲁棒性：扩散模型天然的去噪特性使其特征对光照变化和相机运动更鲁棒
不能简单替换backbone：直接使用T2V模型不做任何设计无法超过现有方法，Text-Guided Projection和Noise Prediction是关键

亮点与洞察¶

生成模型用于理解任务的成功范例："能创造即能理解"的假设在视频领域得到初步验证，T2V模型的视觉表示具有优于判别式模型的时序一致性
Image-Text联合投影设计精巧：文本提供语义指导确保时序匹配，图像token提供实例细节，两者互补
视频特定噪声预测：简单但有效，只需一个带归一化的线性层就能显著提升特征质量

局限性 / 可改进方向¶

T2V模型体积大（ModelScopeT2V的UNet），推理开销比V-Swin更大
只在R-VOS任务上验证，需要扩展到更多视频理解任务（如VOS、视频问答等）
固定T2V模型不微调可能限制上限，探索高效微调策略（如LoRA）可能进一步提升
可以尝试更新更强的T2V模型（如Sora架构）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次探索T2V扩散模型做视频理解，假设新颖且得到验证
实验充分度: ⭐⭐⭐⭐ 四个benchmark全面验证+深入特征分析
写作质量: ⭐⭐⭐⭐ 分析从VD-T到VD-I到VD-IT的递进逻辑清晰
价值: ⭐⭐⭐⭐⭐ 开辟了生成式视频模型用于理解任务的新方向