跳转至

TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

会议: CVPR 2026
arXiv: 2512.14698
代码: timelens-arc-lab.github.io
领域: 视频时间定位 / 多模态LLM
关键词: video temporal grounding, data quality, RLVR, timestamp encoding, benchmark refinement

一句话总结

系统调查构建MLLM视频时间定位(VTG)能力的关键因素,从数据质量和算法设计两个维度出发,发布高质量基准TimeLens-Bench和训练集TimeLens-100K,并通过交错文本时间编码+thinking-free RLVR训练范式构建TimeLens系列模型,在开源模型中达到SOTA并超越GPT-5和Gemini-2.5-Flash。

研究背景与动机

领域现状:MLLM在"what"理解上表现出色,但"when"能力严重不足。VTG(给定视频和文本查询,定位对应时间段)是建立时间感知的核心任务,但研究方法五花八门且缺乏统一的最佳实践。

现有痛点

  1. 现有VTG基准质量堪忧:Charades-STA中20.6%样本违反查询唯一性,34.9%存在标注精度问题;多个数据集存在事件不存在、查询模糊、信息泄漏等错误
  2. 不同开源方法使用不同的训练数据和实验设置,无法公平对比时间编码、训练策略等设计选择
  3. 训练数据(来自多个源数据集)的错误率甚至比评估基准更高

核心矛盾:在修复基准后模型排名发生剧烈变化——原基准上开源模型分数高于GPT-5,修复后完全反转——证明之前的评估标准不可靠。

本文目标 建立可靠的VTG数据基础,并系统探索最优的算法设计原则。

切入角度:不引入新的复杂方法,而是沿数据质量和算法设计两条线做增量但必要的系统性基线研究。

核心 idea:数据质量修复 + 交错文本时间编码 + thinking-free RLVR = 简单且最优的VTG方案。

方法详解

整体框架

沿数据质量和算法设计两个维度展开。数据层面:诊断并修复三个主流基准→发布TimeLens-Bench + 自动化重标注训练数据→TimeLens-100K。算法层面:系统对比时间戳编码方式→训练范式→RLVR训练配方→最终构建TimeLens-7B/8B。

关键设计

  1. TimeLens-Bench:高质量评估基准

    • 定义6条严格标注标准:查询清晰性/唯一性、事件存在性、避免信息泄漏、标注精确性/完整性
    • Diagnose-then-Refine工作流:同一标注员负责错误检测和修正,兼顾效率和质量
    • 多轮交叉验证+质量控制:每批次由不同标注员复核,错误率超阈值则整批返工
    • 最终产出Charades-TimeLens / ActivityNet-TimeLens / QVHighlights-TimeLens
  2. 交错文本时间编码(Interleaved Textual Encoding)

    • 对比三类方案:位置编码based(MRoPE等)、视觉叠加(帧上直接渲染时间文本)、文本编码(交错/非交错)
    • 每种方案再对比两种时间格式:原始时间戳("10.2s")vs 帧索引("1, 2, 3")
    • 结论:交错文本前缀+原始时间戳最优(mIoU: Charades 48.3, ActivityNet 43.1, QVHighlights 56.7),显著优于位置编码方案(36.6, 33.1, 49.2),且简单直观无需修改模型架构
  3. Thinking-free RLVR训练范式

    • 系统对比SFT / thinking-based RLVR / SFT+thinking-free RLVR / 纯thinking-free RLVR四种范式
    • 核心发现:VTG本质是感知任务而非推理任务,显式thinking过程反而有害
    • 纯thinking-free RLVR以1.0×训练时间(~4h10m on 8×H20 GPU)达到最佳性能
    • SFT前置阶段无显著帮助(SFT+RLVR的2.9×时间 vs 纯RLVR的1.0×,性能相当)

损失函数 / 训练策略

  • GRPO优化器,基于时间段IoU的可验证奖励,不使用Chain-of-Thought
  • 早停策略:当IoU奖励和组内奖励标准差同时趋于平台期时停止训练,继续训练反而导致性能下降
  • 基于难度的数据采样:用待训练模型对训练数据做离线推理计算IoU难度,高斯采样偏向高难度样本(mean > 0.75时性能饱和),约12K样本即够
  • TimeLens-7B基于Qwen2.5-VL-7B,TimeLens-8B基于Qwen3-VL-8B

实验关键数据

主实验

在TimeLens-Bench上的mIoU对比:

模型 Charades ActivityNet QVHighlights 类型
GPT-4o 41.8 40.4 52.1 商业
GPT-5 40.5 42.9 56.8 商业
Gemini-2.5-Flash 48.6 52.5 64.3 商业
Gemini-2.5-Pro 52.8 58.1 70.4 商业
Time-R1-7B 36.6 33.1 49.2 开源
MiMo-VL-7B 39.6 35.5 41.5 开源
Qwen2.5-VL-7B (基线) 39.3 31.4 31.6 开源
TimeLens-7B 48.8 46.2 56.0 开源
Qwen3-VL-8B (基线) 48.3 46.8 59.4 开源
TimeLens-8B 55.2 53.2 65.5 开源

消融实验

训练范式对比(TimeLens-100K训练数据):

训练范式 Charades mIoU ActivityNet mIoU QVHighlights mIoU 训练时间
SFT (32K) 47.4 39.9 52.0 1.0×
SFT (100K) 48.6 39.7 49.0 2.4×
Thinking-based RLVR 42.7 41.2 57.8 1.9×
SFT + Thinking-free RLVR 50.1 42.7 55.9 2.9×
Thinking-free RLVR 48.3 43.1 56.7 1.0×

关键发现

  • TimeLens-8B在3个基准上mIoU为55.2/53.2/65.5,超越GPT-5(40.5/42.9/56.8)和Gemini-2.5-Flash(48.6/52.5/64.3)
  • 原基准上开源模型表面成绩好,修复后排名剧烈反转——证明原基准不可靠
  • Thinking-free RLVR用最少训练时间(1.0×)达到最佳或近最佳性能,显式thinking反而降低Charades mIoU(42.7 vs 48.3)
  • 交错文本编码在三基准上全面领先视觉叠加和位置编码方案
  • 早停和难度采样各贡献约1-2 mIoU提升,且节省50%+训练时间

亮点与洞察

  • "不是新方法而是必要基线"的定位极其诚实,但数据修复工作量巨大,Impact远超一般方法论文
  • 修复基准后的模型排名反转是全文最震撼的发现——意味着之前基于旧基准的对比结论都需重新审视
  • "VTG是感知而非推理"的发现反直觉:CoT/thinking在VTG上不仅无用还有害
  • RLVR的两条经验(早停+难度采样)具广泛参考价值,适用于其他可验证奖励任务
  • 交错文本编码的胜出说明:简单方案+好数据 > 复杂架构修改

局限与展望

  • 基准修复需大量人工参与(标注员培训、交叉验证),可扩展性有限
  • Thinking-free RLVR可能不适用于更复杂的时序推理任务(如需要因果推理的事件定位)
  • 仅在Qwen2.5-VL/Qwen3-VL上验证,最佳实践对InternVL、LLaVA等架构的迁移性待考察
  • 训练数据TimeLens-100K的自动重标注质量与人工标注的差异未做定量分析
  • 未探索多粒度时间定位(如moment retrieval与video summarization联合)

相关工作与启发

  • vs Time-R1:同为RLVR方法,但Time-R1使用thinking-based RLVR,mIoU仅36.6/33.1/49.2,远低于TimeLens的48.8/46.2/56.0,差距来自数据质量和thinking-free设计
  • vs TRACE/TRACE-uni:专门的VTG模型,mIoU仅27.1-28.1/32.7-33.6/39.0-39.8,远不敌基于强MLLM的方案
  • vs TimeSuite:另一个VTG系统方案,在ActivityNet上mIoU仅19.8说明数据和训练策略比模型设计更重要
  • 启发:数据质量修复→公平评估→最佳实践建立的研究范式值得其他任务(检测、分割)学习

评分

  • 新颖性: ⭐⭐⭐ 方法本身是增量式的,价值在于系统性而非单点创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 三类时间编码×两种格式+四种训练范式+RLVR配方探索,极其彻底
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,每个发现都有充分实验支撑,Fig.2(a)排名反转可视化极有说服力
  • 价值: ⭐⭐⭐⭐⭐ 基准修复和最佳实践对VTG社区极其有用,TimeLens-Bench将成新标准

相关论文