DisTime: Distribution-based Time Representation for Video Large Language Models¶

会议: ICCV 2025
arXiv: 2505.24329
代码: GitHub
领域: 视频理解 / 时序定位
关键词: Video-LLM, 时间表示, 分布式解码, 时序定位, 时间敏感数据集

一句话总结¶

提出DisTime框架，通过一个可学习的时间token和基于分布的时间解码器，在Video-LLM中实现连续时间表示，配合大规模自动标注数据集InternVid-TG（125万事件），在时刻检索、密集视频描述、Grounded-VQA三类时间敏感任务上达到SOTA。

研究背景与动机¶

当前Video-LLM在通用视频理解上表现出色，但在精确时间定位任务上存在根本性缺陷。现有的时间表达方案各有局限：

文本模态离散化 (如VTimeLLM、TimeMarker)：用文本数字表示时间，但时间和数值共享决策边界，增加分类混淆

多token离散化 (如Momentor、VTG-LLM)：专门引入大量时间token，但受训练数据长尾分布影响，部分token训练不充分，且缺乏时间连续性建模

专用时间头 (如InternVideo2.5)：添加大量参数的时间感知模块（如CG-DETR），计算开销大且需要二次输入视觉信息

此外，现有时间敏感数据集存在时间粒度约束——VTimeLLM依赖镜头边界、InternVid-MR用固定2秒窗口、Momentor依赖镜头一致性——这些粗粒度方式无法准确捕获事件时间边界。

方法详解¶

整体框架¶

DisTime由五个核心组件构成：视觉编码器+投影器、文本编码器、LLM、时间解码器 $\Phi_{\text{time-dec}}$ 和时间编码器 $\Phi_{\text{time-enc}}$。采样的视频帧经视觉编码后，与对应时间戳的时间token交错拼接，连同用户指令一起输入LLM。当LLM生成 <TIME_STAMP> token时，其隐藏状态被送入时间解码器产生连续时间戳。

关键设计¶

基于分布的时间Token (Distribution-based Time Token): 使用单个可学习token <TIME_STAMP> 表示连续时间，将其与文本数字token区分开。核心创新在于不直接回归绝对时间值，而是先将token转换为时间分布，再通过加权求和得到时间戳。
将归一化时间轴 $[0,1]$ 划分为 $reg_{max}+1$ 个离散锚点
用MLP + softmax将 <TIME_STAMP> 的隐藏状态映射为分布向量 $\mathbf{e} \in \mathbb{R}^{2 \times (reg_{max}+1)}$
通过锚点加权求和得到连续时间戳：$st = \sum_{i=0}^{reg_{max}} \mathbf{e}_{st}^{(i)} \cdot a_i$，其中 $a_i = i/reg_{max}$

分布式解码的优势在于建模事件边界的模糊性——例如"一个人喝水"的起始时间是否包含拿杯子的动作？这种标注模糊性使得直接回归容易产生精度误差。

时间编码器 (Time Encoder): 解码器的逆操作，将连续时间戳编码回LLM可处理的时间token。先将时间戳投射为高斯正则化的分布 $p_{st} \sim \mathcal{N}(st, \delta^2)$，离散化后用MLP映射到LLM token空间： $$\tau = \text{MLP}([\hat{\mathbf{e}}_{st}, \hat{\mathbf{e}}_{et}])$$ 编码器极其轻量，仅占InternVL2.5-1B参数量的0.36%。
迭代时间精炼 (Iterative Time Refinement): 在LLM自回归生成过程中，当遇到 <TIME_STAMP> 时：将其隐藏状态解码为时间戳 → 重新编码为时间token → 替换原始token用于后续步骤。这种重编码操作将模糊的时间分布转化为标准化高斯表示，确保时间token间的分布对齐，增强LLM的时序理解一致性。
InternVid-TG 数据集构建: 提出四步标注范式：
事件提取: 用GPT-4o从1fps图像序列中识别视频事件（~7事件/视频）
事件定位: 用三个专用模型（UniMD、Mr.Blip、TFVTG）独立定位事件边界
评分集成: 用InternVideo2计算视频-文本余弦相似度，为每个事件选择最高分模型的定位结果
指令生成: 设计5种对话模板转换为单轮训练对话最终生成179K视频上125万事件标注，规模超ActivityNet-Caption 55倍。

损失函数 / 训练策略¶

联合三个损失函数，权重均为1： - $\mathcal{L}_{ntp}$：标准next token prediction损失 - $\mathcal{L}_{reg}$：1D-IoU回归损失，直接优化时间区间重叠度 - $\mathcal{L}_{dist}$：分布Focal Loss，学习时间分布

训练策略：冻结视觉骨干和中间层，仅用LoRA微调LLM，全量训练token embedding、LLM head、时间编/解码器。

实验关键数据¶

主实验¶

模型	规模	Charades-STA R@1(IoU=0.3)	R@1(IoU=0.5)	ANet R@1(IoU=0.3)	R@1(IoU=0.5)
VTimeLLM	13B	55.3	34.3	44.8	29.5
TimeMarker	8B	73.5	51.9	67.4	50.7
InternVL2.5 (基线)	1B	3.1	1.5	5.3	2.9
DisTime-InternVL	1B	78.1	56.3	67.1	45.4
DisTime-InternVL	8B	81.0	60.3	72.9	53.2
Mr.BLIP (专用模型)	3B	—	69.3	—	53.9

消融实验¶

Direct	Dist.	Re-Enc.	Charades R@1(0.5)	R@1(0.7)	YouCook2 F1
✓			51.9	24.9	2.2
	✓		53.5	26.7	16.3
	✓	✓	56.3	29.7	20.5

训练数据	Charades R@1(0.3)	QVHighlights R@1(0.3)
Baseline	77.4	38.7
+ VTimeLLM数据	76.2	51.0
+ Momentor数据	76.6	39.7
+ InternVid-TG	78.1	54.1

关键发现¶

从3.1%到78.1%的跃升: DisTime将InternVL2.5-1B在Charades-STA上的R@1(IoU=0.3)提升25倍，证明了时间表示方法对LLM时间感知的决定性影响
分布式解码明显优于直接回归: YouCook2上F1从2.2%提升至16.3%，时间重编码进一步提升至20.5%
InternVid-TG数据质量优于规模更大的Momentor: Momentor有146万事件但训练后Charades性能反降，说明标注噪声比规模更重要
在Charades-STA上的零样本结果超越所有专用模型和Video-LLM（R@1(0.3)=81.0%）
方法可即插即用到InternVL2.5和LLaVA-OneVision两种不同架构的Video-LLM

亮点与洞察¶

极简设计的有效性：仅一个额外token + 极轻量MLP解码器（占总参数0.36%），就能赋予LLM精确时间感知能力
分布 vs 点估计：事件边界天然模糊，用分布建模比点回归更符合物理意义，这一洞察值得跨领域借鉴
数据标注范式创新：LLM提取事件 + 专用模型定位 + 相似度评分集成，每一步用最擅长的工具，比端到端方案更可靠

局限与展望¶

InternVL2.5仅采样16帧，对ANet-Caption等需要细粒度时间理解的任务帧数可能不足
时间token的自回归生成增加了推理延迟
InternVid-TG的标注质量仍受三个对齐模型能力上限制约
目前仅支持保持时间对齐的输入token序列，不兼容全局时间聚合的模型（如LinVT）

评分¶

新颖性: ⭐⭐⭐⭐ 分布式时间表示的想法巧妙且有理论支撑
实验充分度: ⭐⭐⭐⭐⭐ 覆盖MR/DVC/Grounded-VQA三类任务+通用QA，消融详尽
写作质量: ⭐⭐⭐⭐ 结构完整，方法描述清楚
价值: ⭐⭐⭐⭐⭐ 解决了Video-LLM的关键短板，数据集贡献巨大