跳转至

Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

会议: ACL 2025
arXiv: 2505.20124
领域: NLP 理解
关键词: video understanding, temporal dynamics, benchmark, video captioning, video QA

一句话总结

本文提出 Tuna,一个面向密集动态视频的细粒度时序理解基准,包含 1000 个精心标注的视频和两个互补任务(Tuna-cap 字幕生成和 Tuna-mcq 视频问答),覆盖相机状态、场景、动作、属性四大动态要素,评估 21 个模型后发现即使 GPT-4o 也仅达 58.5% F1,揭示了当前模型在时序理解上的重大不足。

研究背景与动机

  • 视频理解的核心在于时序动态:相机运动、场景切换、动作序列、属性变化及其关系
  • 现有基准的不足:
  • 多数仅关注单一方面(如动作识别),忽视相机状态和场景变化
  • 偏向长视频,混淆了长上下文建模能力与视频理解能力
  • 评估缺乏可解释性:直接让 LLM 打分不可靠,n-gram 指标缺乏语义
  • 缺少对不同视觉特征(高动态、多场景、多主体)的系统分析
  • 需要一个全面、可解释、鲁棒的时序理解评估基准

方法详解

整体框架

Tuna-1K 数据集构建: 1. 从 10 个来源收集 1000 个短视频(平均 14.5 秒),涵盖 12 个领域 2. 按视觉特征分为 4 类:Low-Dynamic、High-Dynamic、Multi-Scene、Multi-Subject 3. 人工标注时序密集描述:每个视频分解为多个按时间顺序排列的事件 4. 每个事件进一步拆分为带类型(camera/scene/action/attribute)和重要性权重(1-3)的视觉元素

两个评估任务: - Tuna-cap(字幕生成):评估模型生成时序密集描述的能力 - Tuna-mcq(多选题问答):1432 个精心设计的时序敏感问题

关键设计

Tuna-cap 自动评估流水线: 1. 事件分割:将模型生成的字幕拆分为事件序列 2. 事件匹配:将生成事件与参考事件对齐,确保时间顺序一致 3. 关系分类:对每个视觉元素判断其与生成事件的关系(entailment/lack/contradiction) 4. 基于权重计算 Precision、Recall 和 F1

Tuna-mcq 构建流水线: - 利用模型自身的错误点(error-prone points)生成具有挑战性的选项 - 时序不可或缺性过滤:只保留无法通过单帧回答的问题 - 10 种任务类型覆盖相机运动/转场、场景描述/转场、动作识别/序列/主体匹配、物体识别/外观/位置

实验关键数据

主实验——Tuna-cap 字幕评估(P/R/F1)

模型 Camera Scene Action Attribute Overall F1
GPT-4o 61.3 66.4 48.0 57.8 58.5
Gemini 1.5 Pro 60.7 63.3 46.3 56.0 57.4
MiniCPM-V-2.6 (7B) 56.0 60.6 38.8 50.2 51.7
LLaVA-Video-7B 50.4 58.9 37.8 53.1 51.0
Qwen2-VL-72B 54.0 52.8 42.6 48.5 51.7

Tuna-mcq 视频问答准确率

模型 Camera Motion Action Seq. Scene Desc. Overall
Qwen2-VL-72B 52.7 54.4 74.1 60.7
LLaVA-Video-72B 47.7 57.0 77.8 60.7
GPT-4o 53.9 67.6 81.5 60.3
Gemini 1.5 Pro 49.4 60.4 64.8 60.8
LLaVA-Video-7B 39.1 52.4 59.3 50.6

关键发现

  • 动作描述最弱:几乎所有模型在 action 维度 F1 最低(GPT-4o 仅 48.0%),远低于 scene(66.4%)
  • 多主体场景最难:所有模型在 Multi-Subject 视觉特征下表现最差
  • 相机运动理解不足:Camera Motion QA 准确率普遍 <55%
  • 字幕 vs QA 差距大:字幕任务中开源模型明显落后闭源,但 QA 任务中开源模型已具竞争力
  • 复杂度影响显著:视频事件数增加时 F1 持续下降
  • 增加帧数不总有效:对最复杂视频,从 32 帧增到 64 帧反而降低表现
  • 评估方法有效:Tuna-cap 与人类判断的 Spearman ρ = 0.767,远优于 METEOR (0.448) 和 DREAM-1K (0.313)

亮点与洞察

  • 首次系统覆盖相机状态、场景、动作、属性四大维度的视频时序理解评估
  • 评估流水线设计紧密围绕"事件分割→匹配→关系分类",可解释性强
  • 发现"增帧不总有效"和"字幕远难于 QA"等反直觉结论,对模型设计有指导意义
  • 数据标注质量高:人工精标 + 交叉验证 + 专家审核
  • 视觉元素权重机制使得评估更精细

局限性

  • 视频数量有限(1000 个),覆盖面可能不足
  • 评估依赖 GPT-4o 进行事件分割/匹配/关系分类,引入模型偏差
  • 仅关注短视频(平均 14.5s),长视频时序理解未覆盖
  • QA 任务默认采样 32 帧可能对部分快速变化视频不足
  • 标注为英文,对非英语视频内容的理解未评估

相关工作

  • 视频理解基准:Video-MME (Fu et al., 2024)、MLVU (Zhou et al., 2024)、MVBench (Li et al., 2024)
  • 视频字幕评估:DREAM-1K (Wang et al., 2024)、VDC (Chai et al., 2024)
  • 时序理解:TempCompass (Liu et al., 2024)、TemporalBench (Cai et al., 2024)
  • 视频 LMM:GPT-4o、LLaVA-Video、Qwen2-VL、InternVL2

评分

  • 新颖性: ⭐⭐⭐⭐ — 四维度时序理解评估框架新颖且系统
  • 技术深度: ⭐⭐⭐⭐ — 评估流水线设计精巧,指标定义严谨
  • 实验充分性: ⭐⭐⭐⭐⭐ — 21 个模型全面评估,多维度分析
  • 清晰度: ⭐⭐⭐⭐ — 结构清晰,图表丰富
  • 影响力: ⭐⭐⭐⭐ — 对视频理解社区有重要评测价值