How Should Video LLMs Output Time? An Analysis of Efficient Temporal Grounding Paradigms¶

会议: CVPR 2026
arXiv: 2604.08966
代码: https://tg-paradigms.github.io/
领域: 视频理解
关键词: 视频时序定位, 多模态大语言模型, 时间输出范式, 效率分析, 紧凑模型

一句话总结¶

本文在统一框架下对比了视频时序定位的三种主流时间输出范式（文本数字生成、时间token生成、连续时间解码），发现连续分布范式在效率-精度帕累托前沿上始终表现最优。

领域现状：视频时序定位（VTG）是连接语言查询与视频时间片段的核心任务。多模态大语言模型（MLLM）已成为该任务的主流骨干，但各种方法在时间输出设计上分歧巨大——有的直接生成文本时间戳，有的引入专用时间token，有的通过连续解码预测时间分布。

现有痛点：每种范式都使用自己的骨干、数据集和训练协议，导致无法将性能差异归因于输出设计本身。此外，随着VTG系统向资源受限的边缘设备部署，缺乏系统性的效率-精度权衡分析。

核心矛盾：输出范式的选择对定位精度和计算成本的影响尚不明确，特别是在紧凑模型（0.5B-8B）上。

本文目标：在相同骨干、数据和训练协议下公平对比三种范式的精度和效率。

切入角度：选择SmolVLM2（0.5B/2.2B）、FastVLM（1.5B）和Molmo2（4B/8B）作为紧凑骨干，确保唯一变量是输出范式。

核心idea：连续分布范式在帕累托前沿上实现了最优的效率-精度权衡，具有最低的延迟开销和鲁棒的定位精度。

本文实现了三种代表性范式：TRACE风格的时间token生成（Gen）、DisTime风格的连续分布解码（Cont）和VTimeLLM风格的文本数字生成（Text），在1.2M训练样本和三个评测基准上进行统一比较。

文本数字生成范式（Text）:
- 功能：将时间边界作为纯文本数字生成，直接复用LLM的原生词表
- 核心思路：将目标时间格式化为自然语言模板（如"from 52.0 to 63.0 seconds"），使用标准下一token预测损失 \(\mathcal{L}_{text} = -\sum_j \log P(w_j | w_{<j}, I, F)\)
- 设计动机：无需架构修改，但时间语义与通用数字token纠缠，可能限制精度
时间token生成范式（Gen）:
- 功能：引入专用时间token创建独立的时间表示空间
- 核心思路：采用TRACE的因果事件建模框架，每个事件 \(e_k=(t_k, s_k, c_k)\) 包含时间戳、显著性分数和描述。使用13个字符级token的独立tokenizer和任务特定交叉熵损失
- 设计动机：显式解耦时间坐标与自然语言，保留视频事件的内在结构
连续时间解码范式（Cont）:
- 功能：将时间定位建模为概率分布估计
- 核心思路：引入可学习的⟨TIME_STAMP⟩token，通过轻量MLP将其隐状态解码为时间分布。将连续时间空间离散为 \(reg_{max}+1\) 个bin，最终时间预测为加权期望：\(\hat{t}_s = \sum_i e_{st}^{(i)} \cdot a_i\)
- 设计动机：自然建模预测不确定性，缓解主观边界标注的歧义性，参数开销最小

所有范式使用相同的LoRA微调协议（r=32），相同的1.2M训练数据。Gen范式使用任务特定交叉熵，Cont范式使用1D-IoU回归损失+分布焦点损失，Text范式使用标准语言建模损失。

基准/范式	指标	Text	Gen	Cont
Charades-STA (SmolVLM2-2.2B)	R1@0.5	中等	较高	最高
QVHighlights (SmolVLM2-2.2B)	R1@0.5	中等	较高	最高
YouCook2 (SmolVLM2-2.2B)	CIDEr	最高	较高	-