TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs¶
会议: CVPR 2026
arXiv: 2512.14698
代码: timelens-arc-lab.github.io
领域: 视频时间定位 / 多模态LLM
关键词: video temporal grounding, data quality, RLVR, timestamp encoding, benchmark refinement
一句话总结¶
系统调查构建MLLM视频时间定位(VTG)能力的关键因素,从数据质量和算法设计两个维度出发,发布高质量基准TimeLens-Bench和训练集TimeLens-100K,并通过交错文本时间编码+thinking-free RLVR训练范式构建TimeLens系列模型,在开源模型中达到SOTA并超越GPT-5和Gemini-2.5-Flash。
研究背景与动机¶
领域现状:MLLM在"what"理解上表现出色,但"when"能力严重不足。VTG(给定视频和文本查询,定位对应时间段)是建立时间感知的核心任务,但研究方法五花八门且缺乏统一的最佳实践。
现有痛点:
- 现有VTG基准质量堪忧:Charades-STA中20.6%样本违反查询唯一性,34.9%存在标注精度问题;多个数据集存在事件不存在、查询模糊、信息泄漏等错误
- 不同开源方法使用不同的训练数据和实验设置,无法公平对比时间编码、训练策略等设计选择
- 训练数据(来自多个源数据集)的错误率甚至比评估基准更高
核心矛盾:在修复基准后模型排名发生剧烈变化——原基准上开源模型分数高于GPT-5,修复后完全反转——证明之前的评估标准不可靠。
本文目标 建立可靠的VTG数据基础,并系统探索最优的算法设计原则。
切入角度:不引入新的复杂方法,而是沿数据质量和算法设计两条线做增量但必要的系统性基线研究。
核心 idea:数据质量修复 + 交错文本时间编码 + thinking-free RLVR = 简单且最优的VTG方案。
方法详解¶
整体框架¶
沿数据质量和算法设计两个维度展开。数据层面:诊断并修复三个主流基准→发布TimeLens-Bench + 自动化重标注训练数据→TimeLens-100K。算法层面:系统对比时间戳编码方式→训练范式→RLVR训练配方→最终构建TimeLens-7B/8B。
关键设计¶
-
TimeLens-Bench:高质量评估基准
- 定义6条严格标注标准:查询清晰性/唯一性、事件存在性、避免信息泄漏、标注精确性/完整性
- Diagnose-then-Refine工作流:同一标注员负责错误检测和修正,兼顾效率和质量
- 多轮交叉验证+质量控制:每批次由不同标注员复核,错误率超阈值则整批返工
- 最终产出Charades-TimeLens / ActivityNet-TimeLens / QVHighlights-TimeLens
-
交错文本时间编码(Interleaved Textual Encoding)
- 对比三类方案:位置编码based(MRoPE等)、视觉叠加(帧上直接渲染时间文本)、文本编码(交错/非交错)
- 每种方案再对比两种时间格式:原始时间戳("10.2s")vs 帧索引("1, 2, 3")
- 结论:交错文本前缀+原始时间戳最优(mIoU: Charades 48.3, ActivityNet 43.1, QVHighlights 56.7),显著优于位置编码方案(36.6, 33.1, 49.2),且简单直观无需修改模型架构
-
Thinking-free RLVR训练范式
- 系统对比SFT / thinking-based RLVR / SFT+thinking-free RLVR / 纯thinking-free RLVR四种范式
- 核心发现:VTG本质是感知任务而非推理任务,显式thinking过程反而有害
- 纯thinking-free RLVR以1.0×训练时间(~4h10m on 8×H20 GPU)达到最佳性能
- SFT前置阶段无显著帮助(SFT+RLVR的2.9×时间 vs 纯RLVR的1.0×,性能相当)
损失函数 / 训练策略¶
- GRPO优化器,基于时间段IoU的可验证奖励,不使用Chain-of-Thought
- 早停策略:当IoU奖励和组内奖励标准差同时趋于平台期时停止训练,继续训练反而导致性能下降
- 基于难度的数据采样:用待训练模型对训练数据做离线推理计算IoU难度,高斯采样偏向高难度样本(mean > 0.75时性能饱和),约12K样本即够
- TimeLens-7B基于Qwen2.5-VL-7B,TimeLens-8B基于Qwen3-VL-8B
实验关键数据¶
主实验¶
在TimeLens-Bench上的mIoU对比:
| 模型 | Charades | ActivityNet | QVHighlights | 类型 |
|---|---|---|---|---|
| GPT-4o | 41.8 | 40.4 | 52.1 | 商业 |
| GPT-5 | 40.5 | 42.9 | 56.8 | 商业 |
| Gemini-2.5-Flash | 48.6 | 52.5 | 64.3 | 商业 |
| Gemini-2.5-Pro | 52.8 | 58.1 | 70.4 | 商业 |
| Time-R1-7B | 36.6 | 33.1 | 49.2 | 开源 |
| MiMo-VL-7B | 39.6 | 35.5 | 41.5 | 开源 |
| Qwen2.5-VL-7B (基线) | 39.3 | 31.4 | 31.6 | 开源 |
| TimeLens-7B | 48.8 | 46.2 | 56.0 | 开源 |
| Qwen3-VL-8B (基线) | 48.3 | 46.8 | 59.4 | 开源 |
| TimeLens-8B | 55.2 | 53.2 | 65.5 | 开源 |
消融实验¶
训练范式对比(TimeLens-100K训练数据):
| 训练范式 | Charades mIoU | ActivityNet mIoU | QVHighlights mIoU | 训练时间 |
|---|---|---|---|---|
| SFT (32K) | 47.4 | 39.9 | 52.0 | 1.0× |
| SFT (100K) | 48.6 | 39.7 | 49.0 | 2.4× |
| Thinking-based RLVR | 42.7 | 41.2 | 57.8 | 1.9× |
| SFT + Thinking-free RLVR | 50.1 | 42.7 | 55.9 | 2.9× |
| Thinking-free RLVR | 48.3 | 43.1 | 56.7 | 1.0× |
关键发现¶
- TimeLens-8B在3个基准上mIoU为55.2/53.2/65.5,超越GPT-5(40.5/42.9/56.8)和Gemini-2.5-Flash(48.6/52.5/64.3)
- 原基准上开源模型表面成绩好,修复后排名剧烈反转——证明原基准不可靠
- Thinking-free RLVR用最少训练时间(1.0×)达到最佳或近最佳性能,显式thinking反而降低Charades mIoU(42.7 vs 48.3)
- 交错文本编码在三基准上全面领先视觉叠加和位置编码方案
- 早停和难度采样各贡献约1-2 mIoU提升,且节省50%+训练时间
亮点与洞察¶
- "不是新方法而是必要基线"的定位极其诚实,但数据修复工作量巨大,Impact远超一般方法论文
- 修复基准后的模型排名反转是全文最震撼的发现——意味着之前基于旧基准的对比结论都需重新审视
- "VTG是感知而非推理"的发现反直觉:CoT/thinking在VTG上不仅无用还有害
- RLVR的两条经验(早停+难度采样)具广泛参考价值,适用于其他可验证奖励任务
- 交错文本编码的胜出说明:简单方案+好数据 > 复杂架构修改
局限与展望¶
- 基准修复需大量人工参与(标注员培训、交叉验证),可扩展性有限
- Thinking-free RLVR可能不适用于更复杂的时序推理任务(如需要因果推理的事件定位)
- 仅在Qwen2.5-VL/Qwen3-VL上验证,最佳实践对InternVL、LLaVA等架构的迁移性待考察
- 训练数据TimeLens-100K的自动重标注质量与人工标注的差异未做定量分析
- 未探索多粒度时间定位(如moment retrieval与video summarization联合)
相关工作与启发¶
- vs Time-R1:同为RLVR方法,但Time-R1使用thinking-based RLVR,mIoU仅36.6/33.1/49.2,远低于TimeLens的48.8/46.2/56.0,差距来自数据质量和thinking-free设计
- vs TRACE/TRACE-uni:专门的VTG模型,mIoU仅27.1-28.1/32.7-33.6/39.0-39.8,远不敌基于强MLLM的方案
- vs TimeSuite:另一个VTG系统方案,在ActivityNet上mIoU仅19.8说明数据和训练策略比模型设计更重要
- 启发:数据质量修复→公平评估→最佳实践建立的研究范式值得其他任务(检测、分割)学习
评分¶
- 新颖性: ⭐⭐⭐ 方法本身是增量式的,价值在于系统性而非单点创新
- 实验充分度: ⭐⭐⭐⭐⭐ 三类时间编码×两种格式+四种训练范式+RLVR配方探索,极其彻底
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,每个发现都有充分实验支撑,Fig.2(a)排名反转可视化极有说服力
- 价值: ⭐⭐⭐⭐⭐ 基准修复和最佳实践对VTG社区极其有用,TimeLens-Bench将成新标准
相关论文¶
- [CVPR 2026] GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding
- [ICCV 2025] Enrich and Detect: Video Temporal Grounding with Multimodal LLMs
- [CVPR 2026] VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion
- [CVPR 2026] Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token
- [CVPR 2026] PersonaVLM: Long-Term Personalized Multimodal LLMs