TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs¶

会议: CVPR 2026
arXiv: 2512.14698
代码: timelens-arc-lab.github.io
领域: 视频时间定位 / 多模态LLM
关键词: video temporal grounding, data quality, RLVR, timestamp encoding, benchmark refinement

一句话总结¶

系统调查构建MLLM视频时间定位（VTG）能力的关键因素，从数据质量和算法设计两个维度出发，发布高质量基准TimeLens-Bench和训练集TimeLens-100K，并通过交错文本时间编码+thinking-free RLVR训练范式构建TimeLens系列模型，在开源模型中达到SOTA并超越GPT-5和Gemini-2.5-Flash。

研究背景与动机¶

领域现状：MLLM在"what"理解上表现出色，但"when"能力严重不足。VTG（给定视频和文本查询，定位对应时间段）是建立时间感知的核心任务，但研究方法五花八门且缺乏统一的最佳实践。

现有痛点：

现有VTG基准质量堪忧：Charades-STA中20.6%样本违反查询唯一性，34.9%存在标注精度问题；多个数据集存在事件不存在、查询模糊、信息泄漏等错误
不同开源方法使用不同的训练数据和实验设置，无法公平对比时间编码、训练策略等设计选择
训练数据（来自多个源数据集）的错误率甚至比评估基准更高

核心矛盾：在修复基准后模型排名发生剧烈变化——原基准上开源模型分数高于GPT-5，修复后完全反转——证明之前的评估标准不可靠。

本文目标 建立可靠的VTG数据基础，并系统探索最优的算法设计原则。

切入角度：不引入新的复杂方法，而是沿数据质量和算法设计两条线做增量但必要的系统性基线研究。

核心 idea：数据质量修复 + 交错文本时间编码 + thinking-free RLVR = 简单且最优的VTG方案。

方法详解¶

整体框架¶

沿数据质量和算法设计两个维度展开。数据层面：诊断并修复三个主流基准→发布TimeLens-Bench + 自动化重标注训练数据→TimeLens-100K。算法层面：系统对比时间戳编码方式→训练范式→RLVR训练配方→最终构建TimeLens-7B/8B。

关键设计¶

TimeLens-Bench：高质量评估基准
- 定义6条严格标注标准：查询清晰性/唯一性、事件存在性、避免信息泄漏、标注精确性/完整性
- Diagnose-then-Refine工作流：同一标注员负责错误检测和修正，兼顾效率和质量
- 多轮交叉验证+质量控制：每批次由不同标注员复核，错误率超阈值则整批返工
- 最终产出Charades-TimeLens / ActivityNet-TimeLens / QVHighlights-TimeLens
交错文本时间编码（Interleaved Textual Encoding）
- 对比三类方案：位置编码based（MRoPE等）、视觉叠加（帧上直接渲染时间文本）、文本编码（交错/非交错）
- 每种方案再对比两种时间格式：原始时间戳（"10.2s"）vs 帧索引（"1, 2, 3"）
- 结论：交错文本前缀+原始时间戳最优（mIoU: Charades 48.3, ActivityNet 43.1, QVHighlights 56.7），显著优于位置编码方案（36.6, 33.1, 49.2），且简单直观无需修改模型架构
Thinking-free RLVR训练范式
- 系统对比SFT / thinking-based RLVR / SFT+thinking-free RLVR / 纯thinking-free RLVR四种范式
- 核心发现：VTG本质是感知任务而非推理任务，显式thinking过程反而有害
- 纯thinking-free RLVR以1.0×训练时间（~4h10m on 8×H20 GPU）达到最佳性能
- SFT前置阶段无显著帮助（SFT+RLVR的2.9×时间 vs 纯RLVR的1.0×，性能相当）

损失函数 / 训练策略¶

GRPO优化器，基于时间段IoU的可验证奖励，不使用Chain-of-Thought
早停策略：当IoU奖励和组内奖励标准差同时趋于平台期时停止训练，继续训练反而导致性能下降
基于难度的数据采样：用待训练模型对训练数据做离线推理计算IoU难度，高斯采样偏向高难度样本（mean > 0.75时性能饱和），约12K样本即够
TimeLens-7B基于Qwen2.5-VL-7B，TimeLens-8B基于Qwen3-VL-8B

实验关键数据¶

主实验¶

在TimeLens-Bench上的mIoU对比：

模型	Charades	ActivityNet	QVHighlights	类型
GPT-4o	41.8	40.4	52.1	商业
GPT-5	40.5	42.9	56.8	商业
Gemini-2.5-Flash	48.6	52.5	64.3	商业
Gemini-2.5-Pro	52.8	58.1	70.4	商业
Time-R1-7B	36.6	33.1	49.2	开源
MiMo-VL-7B	39.6	35.5	41.5	开源
Qwen2.5-VL-7B (基线)	39.3	31.4	31.6	开源
TimeLens-7B	48.8	46.2	56.0	开源
Qwen3-VL-8B (基线)	48.3	46.8	59.4	开源
TimeLens-8B	55.2	53.2	65.5	开源

消融实验¶

训练范式对比（TimeLens-100K训练数据）：

训练范式	Charades mIoU	ActivityNet mIoU	QVHighlights mIoU	训练时间
SFT (32K)	47.4	39.9	52.0	1.0×
SFT (100K)	48.6	39.7	49.0	2.4×
Thinking-based RLVR	42.7	41.2	57.8	1.9×
SFT + Thinking-free RLVR	50.1	42.7	55.9	2.9×
Thinking-free RLVR	48.3	43.1	56.7	1.0×

关键发现¶

TimeLens-8B在3个基准上mIoU为55.2/53.2/65.5，超越GPT-5（40.5/42.9/56.8）和Gemini-2.5-Flash（48.6/52.5/64.3）
原基准上开源模型表面成绩好，修复后排名剧烈反转——证明原基准不可靠
Thinking-free RLVR用最少训练时间(1.0×)达到最佳或近最佳性能，显式thinking反而降低Charades mIoU（42.7 vs 48.3）
交错文本编码在三基准上全面领先视觉叠加和位置编码方案
早停和难度采样各贡献约1-2 mIoU提升，且节省50%+训练时间

亮点与洞察¶

"不是新方法而是必要基线"的定位极其诚实，但数据修复工作量巨大，Impact远超一般方法论文
修复基准后的模型排名反转是全文最震撼的发现——意味着之前基于旧基准的对比结论都需重新审视
"VTG是感知而非推理"的发现反直觉：CoT/thinking在VTG上不仅无用还有害
RLVR的两条经验（早停+难度采样）具广泛参考价值，适用于其他可验证奖励任务
交错文本编码的胜出说明：简单方案+好数据 > 复杂架构修改

局限与展望¶

基准修复需大量人工参与（标注员培训、交叉验证），可扩展性有限
Thinking-free RLVR可能不适用于更复杂的时序推理任务（如需要因果推理的事件定位）
仅在Qwen2.5-VL/Qwen3-VL上验证，最佳实践对InternVL、LLaVA等架构的迁移性待考察
训练数据TimeLens-100K的自动重标注质量与人工标注的差异未做定量分析
未探索多粒度时间定位（如moment retrieval与video summarization联合）

评分¶

新颖性: ⭐⭐⭐ 方法本身是增量式的，价值在于系统性而非单点创新
实验充分度: ⭐⭐⭐⭐⭐ 三类时间编码×两种格式+四种训练范式+RLVR配方探索，极其彻底
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，每个发现都有充分实验支撑，Fig.2(a)排名反转可视化极有说服力
价值: ⭐⭐⭐⭐⭐ 基准修复和最佳实践对VTG社区极其有用，TimeLens-Bench将成新标准