UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language Models¶
会议: CVPR 2026
arXiv: 2512.11336
代码: https://github.com/Heven-Pan/UFVideo
领域: 视频理解 / 多模态VLM
关键词: 统一视频理解, 多粒度协同, 像素级分割, 时序定位, Video LLM
一句话总结¶
UFVideo 是首个统一全局、像素级和时序级三种粒度视频理解能力的 Video LLM,通过视觉-语言引导对齐策略和 SAM2 mask decoder,在单一模型内同时支持视频问答、目标引用、视频分割和时序定位,并构建了多粒度协同理解基准 UFVideo-Bench。
研究背景与动机¶
-
领域现状:当前 Video LLM 已从通用视频问答扩展到多种细粒度理解任务,包括视频目标引用(video referring)、视频分割(video segmentation)、时序定位(temporal grounding)等。这些任务分别对应像素级和时序级的视频理解。
-
现有痛点:现有方法各自专注于单一粒度的理解任务,彼此独立训练和推理,无法有效整合不同粒度的感知和推理能力来实现互相增强。例如,擅长目标引用的模型无法处理事件时间定位,专注时序定位的模型无法进行像素级分割。
-
核心矛盾:不同粒度的视频知识实际上可以互补——细粒度时序知识能增强对引用目标的理解,全局视频知识能为细粒度任务提供语义支持。但现有模型在生成时各粒度是隔离的,没有显式关联。
-
本文目标 如何在单一模型中统一全局(global)、像素级(pixel-level)、时序级(temporal-level)三种粒度的视频理解,并且让它们协同工作。
-
切入角度:设计统一的视觉-语言引导对齐策略,通过特殊 token 区分不同任务的输入输出,共享 LLM backbone 实现多任务联合训练。
-
核心 idea:用统一的 token 设计(
<Ref>/<Seg>/<Temp>)将全局问答、像素级分割、时序定位三类任务统一到同一个 Video LLM 中,实现多粒度协同视频理解。
方法详解¶
整体框架¶
UFVideo 以 LLM 为骨架,视觉编码器将视频编码为离散 token 与文本 token 对齐。输入包括视频 \(V\)、文本问题 \(Q\) 和可选的目标视觉提示 \(M\)(mask);输出包括文本回答 \(A\)、时序定位 \(T\) 和分割 mask \(S\)。通过统一的视觉-语言引导对齐训练,模型可以根据不同任务灵活地生成对应类型的输出。
关键设计¶
-
多粒度任务对齐(Multi-Grained Video Tasks Alignment):
- 功能:通过特殊 token 区分和统一不同粒度的视频理解任务
- 核心思路:设计三类特殊 token——
<Temp-τ>表示相对时间戳(将视频时间归一化到固定长度 \(N_t\) 后编码为 \(\tau = \frac{t}{T_n} \times N_t\)),<Ref>作为视觉提示注入的占位符用于目标引用任务,<Seg>用于从 LLM 输出中提取分割相关的 language embedding。文本指令被 tokenize 为 \(\mathcal{T}_i\),时序 token 为 \(\mathcal{T}_t\),形成统一的输入表示。 - 设计动机:通过特殊 token 而非独立模块来区分任务,可以共用同一个 LLM backbone,避免为每个任务设计专门架构,同时让不同任务的知识在共享参数中互相增强。
-
多模态编码(Encode for Multi-Modal Input):
- 功能:将视频和目标视觉提示统一编码为 token
- 核心思路:使用预训练视觉编码器 \(\Phi_v\)(SigLIP-so400m)分别对视频 \(V\) 和目标视觉提示 \(M\) 进行编码,获取视频特征 \(F_V\) 和目标视觉特征 \(F_M\)。然后用 VideoRefer 的方法从 \(F_M\) 中提取目标空间特征 \(S_M\),投影为目标视觉 token \(\mathcal{T}_r\) 注入到
<Ref>位置。对于分割任务,随机选取 \(K\) 帧用 SAM2 的 Hiera-L 编码器编码,作为 mask decoder 的视觉输入。 - 设计动机:将不同模态信息统一到 token 空间,使 LLM 能同时处理视频内容和目标级别信息。
-
多任务解码(Decode for LLM Generative):
- 功能:从 LLM 的统一输出中解码出文本、时间和分割三种结果
- 核心思路:LLM 输出 hidden state \(H\) 后,文本回答和时序定位都通过 text-form token 生成(时序通过 \(\mathcal{Y}_m = p_\theta(H) \times \frac{T_n}{N_t}\) 转换回实际时间)。像素级分割则利用
<Seg>token 的位置 mask \(\rho_s\) 提取分割相关 embedding,通过投影层 \(\theta\) 与位置 mask 做逐元素乘法后送入 SAM2 的 mask decoder 生成分割结果。由于不同样本的分割目标数量不同,需要动态 embedding 训练。 - 设计动机:文本和时间可以直接用 LLM 的 next-token prediction 生成,而像素级分割难以直接用 token 表示,因此借用 SAM2 的 mask decoder 桥接 language embedding 到 pixel-level mask。
损失函数 / 训练策略¶
总损失为 \(\mathcal{L} = \gamma \cdot \mathcal{L}_{text} + \mathcal{L}_{mask}\)。其中 \(\mathcal{L}_{text}\) 是标准 next-token prediction 的负对数似然损失;\(\mathcal{L}_{mask} = \alpha \cdot \text{BCE}(S_p, S_t) + \beta \cdot \text{DICE}(S_p, S_t)\) 包含二值交叉熵和 DICE 损失。超参数设置为 \(\alpha=2.0, \beta=0.5, \gamma=1.0\)。训练分两阶段:Stage 1 全局 batch size 512 训练 2 epoch,Stage 2 batch size 256 训练 1 epoch。使用 32 张 A800 GPU,视觉编码器为 SigLIP-so400m-patch14-384,预训练模型为 VideoRefer 7B。
实验关键数据¶
主实验¶
通用视频理解(MVBench):
| 模型 | 参数量 | 平均得分 |
|---|---|---|
| GPT-4V | - | 43.5 |
| Qwen2-VL | 7B | 67.0 |
| LLaVA-ST | 7B | 64.2 |
| UniPixel | 3B | 62.5 |
| UFVideo | 7B | 67.3 |
视频引用描述(VideoRefer-Bench-D):
| 模型 | Single-Frame Avg | Multi-Frame Avg |
|---|---|---|
| GPT-4o | 2.95 | 3.25 |
| VideoRefer | 3.42 | 3.46 |
| UniPixel | 3.47 | 3.48 |
| UFVideo | 3.59 | 3.61 |
视频引用问答(VideoRefer-Bench-Q):
| 模型 | 平均得分 |
|---|---|
| GPT-4o | 71.3 |
| RGA3 | 74.0 |
| UniPixel | 73.8 |
| UFVideo | 77.9(Multi-Frame) |
消融实验¶
| 配置 | MVBench Avg | VideoRefer-D (MF) | VideoRefer-Q (MF) |
|---|---|---|---|
| Full model (UFVideo) | 67.3 | 3.61 | 77.9 |
| w/o 时序级任务 | 性能下降 | - | - |
| w/o 像素级任务 | - | 性能下降 | 性能下降 |
关键发现¶
- UFVideo 在 9 个公共基准上均达到 SOTA,在 MVBench 上以 67.3% 超越 Qwen2-VL(67.0%)
- 多粒度联合训练带来的互增强效果显著——在视频引用任务上大幅超越仅做引用的 VideoRefer
- 在视频分割任务(MeViS、Ref-YouTube-VOS 等)上也超越专门的分割模型
- UFVideo-Bench 三种协同任务(PixRQA/PixHQA/PixTRQA)展示了模型在需要同时输出文本+时序+分割时的综合能力
亮点与洞察¶
- 统一特殊 token 设计是关键 trick:用
<Ref>、<Seg>、<Temp>三种 token 实现任务区分而非独立模块,优雅且高效,使得一个 7B 模型能覆盖 4+ 种视频理解任务 - SAM2 decoder 作为分割桥梁:直接让 LLM 输出 mask 不现实,通过提取
<Seg>位置的 embedding 送入 SAM2 decoder,巧妙地在 language space 和 pixel space 之间建立映射 - 相对时序 token 设计:将视频时长归一化到固定长度后编码,使模型能处理不同长度视频的时序定位,且可与文本 token 统一生成
局限与展望¶
- 当前模型在 UFVideo-Bench 上的表现表明多粒度协同理解仍有很大提升空间,特别是 PixTRQA 同时需要时序检索+分割+问答的任务难度很高
- 视频帧数和分辨率受限于 GPU 内存,对超长视频的处理能力有限
- 分割质量受限于 SAM2 decoder 的能力上界
- 仅在 7B 规模实验,未验证 scaling law
相关工作与启发¶
- vs RGA3/UniPixel: 这两个工作统一了像素级的引用和分割,但缺乏时序理解。UFVideo 在此基础上增加了时序粒度,实现了真正的三粒度统一
- vs LLaVA-ST: LLaVA-ST 做了空间-时间理解但用 bounding box 而非 mask,粒度较粗。UFVideo 使用像素级 mask 实现更精细的理解
- vs VideoRefer: UFVideo 的预训练模型即基于 VideoRefer 7B,在其基础上扩展了分割和时序能力
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个统一三种粒度的 Video LLM,但技术组件多为已有方法的组合
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 9 个公共基准 + 自建 benchmark,对比全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,但符号体系较复杂
- 价值: ⭐⭐⭐⭐ 为多粒度视频统一理解指明了方向,UFVideo-Bench 有一定社区价值
相关论文¶
- [CVPR 2026] Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos
- [CVPR 2026] Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding
- [CVPR 2026] Understanding Temporal Logic Consistency in Video-Language Models through Cross-Modal Attention Discriminability
- [CVPR 2025] Video Summarization with Large Language Models
- [ICCV 2025] DisTime: Distribution-based Time Representation for Video Large Language Models