UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language Models¶

会议: CVPR 2026
arXiv: 2512.11336
代码: https://github.com/Heven-Pan/UFVideo
领域: 视频理解 / 多模态VLM
关键词: 统一视频理解, 多粒度协同, 像素级分割, 时序定位, Video LLM

一句话总结¶

UFVideo 是首个统一全局、像素级和时序级三种粒度视频理解能力的 Video LLM，通过视觉-语言引导对齐策略和 SAM2 mask decoder，在单一模型内同时支持视频问答、目标引用、视频分割和时序定位，并构建了多粒度协同理解基准 UFVideo-Bench。

研究背景与动机¶

领域现状：当前 Video LLM 已从通用视频问答扩展到多种细粒度理解任务，包括视频目标引用（video referring）、视频分割（video segmentation）、时序定位（temporal grounding）等。这些任务分别对应像素级和时序级的视频理解。
现有痛点：现有方法各自专注于单一粒度的理解任务，彼此独立训练和推理，无法有效整合不同粒度的感知和推理能力来实现互相增强。例如，擅长目标引用的模型无法处理事件时间定位，专注时序定位的模型无法进行像素级分割。
核心矛盾：不同粒度的视频知识实际上可以互补——细粒度时序知识能增强对引用目标的理解，全局视频知识能为细粒度任务提供语义支持。但现有模型在生成时各粒度是隔离的，没有显式关联。
本文目标 如何在单一模型中统一全局（global）、像素级（pixel-level）、时序级（temporal-level）三种粒度的视频理解，并且让它们协同工作。
切入角度：设计统一的视觉-语言引导对齐策略，通过特殊 token 区分不同任务的输入输出，共享 LLM backbone 实现多任务联合训练。
核心 idea：用统一的 token 设计（<Ref> / <Seg> / <Temp>）将全局问答、像素级分割、时序定位三类任务统一到同一个 Video LLM 中，实现多粒度协同视频理解。

方法详解¶

整体框架¶

UFVideo 以 LLM 为骨架，视觉编码器将视频编码为离散 token 与文本 token 对齐。输入包括视频 \(V\)、文本问题 \(Q\) 和可选的目标视觉提示 \(M\)（mask）；输出包括文本回答 \(A\)、时序定位 \(T\) 和分割 mask \(S\)。通过统一的视觉-语言引导对齐训练，模型可以根据不同任务灵活地生成对应类型的输出。

关键设计¶

多粒度任务对齐（Multi-Grained Video Tasks Alignment）:
- 功能：通过特殊 token 区分和统一不同粒度的视频理解任务
- 核心思路：设计三类特殊 token——<Temp-τ> 表示相对时间戳（将视频时间归一化到固定长度 \(N_t\) 后编码为 \(\tau = \frac{t}{T_n} \times N_t\)），<Ref> 作为视觉提示注入的占位符用于目标引用任务，<Seg> 用于从 LLM 输出中提取分割相关的 language embedding。文本指令被 tokenize 为 \(\mathcal{T}_i\)，时序 token 为 \(\mathcal{T}_t\)，形成统一的输入表示。
- 设计动机：通过特殊 token 而非独立模块来区分任务，可以共用同一个 LLM backbone，避免为每个任务设计专门架构，同时让不同任务的知识在共享参数中互相增强。
多模态编码（Encode for Multi-Modal Input）:
- 功能：将视频和目标视觉提示统一编码为 token
- 核心思路：使用预训练视觉编码器 \(\Phi_v\)（SigLIP-so400m）分别对视频 \(V\) 和目标视觉提示 \(M\) 进行编码，获取视频特征 \(F_V\) 和目标视觉特征 \(F_M\)。然后用 VideoRefer 的方法从 \(F_M\) 中提取目标空间特征 \(S_M\)，投影为目标视觉 token \(\mathcal{T}_r\) 注入到 <Ref> 位置。对于分割任务，随机选取 \(K\) 帧用 SAM2 的 Hiera-L 编码器编码，作为 mask decoder 的视觉输入。
- 设计动机：将不同模态信息统一到 token 空间，使 LLM 能同时处理视频内容和目标级别信息。
多任务解码（Decode for LLM Generative）:
- 功能：从 LLM 的统一输出中解码出文本、时间和分割三种结果
- 核心思路：LLM 输出 hidden state \(H\) 后，文本回答和时序定位都通过 text-form token 生成（时序通过 \(\mathcal{Y}_m = p_\theta(H) \times \frac{T_n}{N_t}\) 转换回实际时间）。像素级分割则利用 <Seg> token 的位置 mask \(\rho_s\) 提取分割相关 embedding，通过投影层 \(\theta\) 与位置 mask 做逐元素乘法后送入 SAM2 的 mask decoder 生成分割结果。由于不同样本的分割目标数量不同，需要动态 embedding 训练。
- 设计动机：文本和时间可以直接用 LLM 的 next-token prediction 生成，而像素级分割难以直接用 token 表示，因此借用 SAM2 的 mask decoder 桥接 language embedding 到 pixel-level mask。

损失函数 / 训练策略¶

总损失为 \(\mathcal{L} = \gamma \cdot \mathcal{L}_{text} + \mathcal{L}_{mask}\)。其中 \(\mathcal{L}_{text}\) 是标准 next-token prediction 的负对数似然损失；\(\mathcal{L}_{mask} = \alpha \cdot \text{BCE}(S_p, S_t) + \beta \cdot \text{DICE}(S_p, S_t)\) 包含二值交叉熵和 DICE 损失。超参数设置为 \(\alpha=2.0, \beta=0.5, \gamma=1.0\)。训练分两阶段：Stage 1 全局 batch size 512 训练 2 epoch，Stage 2 batch size 256 训练 1 epoch。使用 32 张 A800 GPU，视觉编码器为 SigLIP-so400m-patch14-384，预训练模型为 VideoRefer 7B。

实验关键数据¶

主实验¶

通用视频理解（MVBench）:

模型	参数量	平均得分
GPT-4V	-	43.5
Qwen2-VL	7B	67.0
LLaVA-ST	7B	64.2
UniPixel	3B	62.5
UFVideo	7B	67.3

视频引用描述（VideoRefer-Bench-D）:

模型	Single-Frame Avg	Multi-Frame Avg
GPT-4o	2.95	3.25
VideoRefer	3.42	3.46
UniPixel	3.47	3.48
UFVideo	3.59	3.61

视频引用问答（VideoRefer-Bench-Q）:

模型	平均得分
GPT-4o	71.3
RGA3	74.0
UniPixel	73.8
UFVideo	77.9（Multi-Frame）

消融实验¶

配置	MVBench Avg	VideoRefer-D (MF)	VideoRefer-Q (MF)
Full model (UFVideo)	67.3	3.61	77.9
w/o 时序级任务	性能下降	-	-
w/o 像素级任务	-	性能下降	性能下降

关键发现¶

UFVideo 在 9 个公共基准上均达到 SOTA，在 MVBench 上以 67.3% 超越 Qwen2-VL（67.0%）
多粒度联合训练带来的互增强效果显著——在视频引用任务上大幅超越仅做引用的 VideoRefer
在视频分割任务（MeViS、Ref-YouTube-VOS 等）上也超越专门的分割模型
UFVideo-Bench 三种协同任务（PixRQA/PixHQA/PixTRQA）展示了模型在需要同时输出文本+时序+分割时的综合能力

亮点与洞察¶

统一特殊 token 设计是关键 trick：用 <Ref>、<Seg>、<Temp> 三种 token 实现任务区分而非独立模块，优雅且高效，使得一个 7B 模型能覆盖 4+ 种视频理解任务
SAM2 decoder 作为分割桥梁：直接让 LLM 输出 mask 不现实，通过提取 <Seg> 位置的 embedding 送入 SAM2 decoder，巧妙地在 language space 和 pixel space 之间建立映射
相对时序 token 设计：将视频时长归一化到固定长度后编码，使模型能处理不同长度视频的时序定位，且可与文本 token 统一生成

局限与展望¶

当前模型在 UFVideo-Bench 上的表现表明多粒度协同理解仍有很大提升空间，特别是 PixTRQA 同时需要时序检索+分割+问答的任务难度很高
视频帧数和分辨率受限于 GPU 内存，对超长视频的处理能力有限
分割质量受限于 SAM2 decoder 的能力上界
仅在 7B 规模实验，未验证 scaling law

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一三种粒度的 Video LLM，但技术组件多为已有方法的组合
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 9 个公共基准 + 自建 benchmark，对比全面
写作质量: ⭐⭐⭐⭐ 结构清晰，但符号体系较复杂
价值: ⭐⭐⭐⭐ 为多粒度视频统一理解指明了方向，UFVideo-Bench 有一定社区价值