跳转至

SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video Situation

会议: CVPR 2025
arXiv: 2504.05925
代码: https://svlta-ai.github.io/SVLTA (有)
领域: 多模态VLM
关键词: 视觉-语言时序对齐, 合成视频, 时序偏差, 基准测试, 视频大模型

一句话总结

提出SVLTA,一个通过合成模拟环境生成的视觉-语言时序对齐基准,包含25.3K动态场景、96种组合动作和77.1K高质量时序标注,具备可控、组合、无偏的时序分布,从时序问答、分布偏移敏感性和时序适应三个维度揭示当前VidLLM严重缺乏时序对齐能力(最强GPT-4o在IoU=0.5时R@1仅11.69%)。

研究背景与动机

视觉-语言时序对齐(将视频内容与语言描述在时间维度上同步)是人类认知世界的基础能力,对理解动态场景至关重要。然而,当前评估体系存在严重缺陷:

领域现状:多模态大语言模型(MLLM)在语义理解上取得巨大进展,但对时间维度的建模能力几乎未被系统评估。现有基准(TACoS、Charades-STA、ActivityNet等)主要关注语义相关性而忽视时序精度。

现有痛点: 1. 时序分布偏差——现有数据集中动作的起止时间分布严重不均衡,模型可能通过偏差而非真正的时序理解来取得高分 2. 标注不精确——人类标注者对同一段视频给出不一致的时序标注(不同人对"动作开始/结束"的认知不同),导致标注噪声 3. 组合性不足——缺乏对动作组合的系统覆盖,限制了对模型时序推理能力的全面诊断

核心矛盾:真实视频中时序分布不可控、标注主观不一致、动作组合难以系统化——这些根本性问题使得现有基准无法公平、全面地评估时序对齐能力。

切入角度:利用合成模拟环境(VirtualHome)生成视频,可以精确控制时序分布、自动生成无噪声标注、系统化组合动作,从而构建一个诊断性基准。

方法详解

整体框架

SVLTA的构建流程包含五个阶段:(1) 情境组件初始化——定义96种动作、7个场景、6个角色;(2) 常识活动图构建——基于动作间的合理依赖关系构建图,通过图遍历生成逻辑动作链;(3) 可控活动脚本——通过动作时长多样化(ADD)和动作排列(AP)控制时序分布;(4) 合成视频和语言生成——在VirtualHome模拟器中执行功能程序生成视频,用模板生成语句;(5) 视觉-语言时序对齐——自动关联时间戳与动作。评估从三个维度进行:时序问答、分布偏移敏感性和时序对齐适应。

关键设计

  1. 常识活动图与逻辑动作链生成(Commonsense Activity Graph)

    • 功能:生成合理且多样的动作组合序列,确保每个动作序列符合人类常识
    • 核心思路
    • 手动检验动作间的依赖关系(如"打开冰箱"必须在"拿取食物"之前),构建有向活动图
    • 使用DFS/BFS图遍历算法生成指定长度的逻辑动作链
    • 提出重采样策略:由于不同动作在图中的度数不均衡(某些动作有更多前驱条件),对低度数节点增加采样权重,确保所有候选动作被均匀选中
    • 设计动机:随机组合动作会产生不合理序列(如"关冰箱→拿三明治"语义矛盾),基于常识知识的图结构保证动作链的合理性
  2. 可控时序分布策略(Controllable Activity Manuscript)

    • 功能:消除时序分布偏差,确保每个动作能出现在视频的任意位置且有多样的持续时长
    • 核心思路:两个互补策略:
    • 动作时长多样化(ADD):通过不同的视频帧率改变同一动作的持续时间,使时序分布更均匀
    • 动作排列(AP):在满足常识依赖关系的前提下排列动作顺序,使每个动作尽可能出现在更多不同的时间位置
    • 设计动机:直接使用逻辑动作链生成视频会引入时序偏差——某些动作总是出现在开头/结尾,且持续时间固定
  3. 不等式约束全局过滤(Inequality Constrained Global Filtering, ICGF)

    • 功能:作为后处理步骤,从全局视角进一步平衡时序分布
    • 核心思路:将去偏差建模为带不等式约束的非线性优化问题:
    • 优化目标:最小化当前分布与均匀分布的绝对偏差
    • 约束条件:过滤掉的样本数不超过给定比例(控制样本量不能太小)
    • 对比传统对抗性过滤(AF)方法,ICGF提供更优的全局去偏效果
    • 设计动机:ADD和AP仅在每个逻辑动作链内(局部)控制分布,全局视角可能仍存在偏差;需要全局后处理来补充

评估指标

提出时序Jensen-Shannon散度(TJSD)度量数据集的时序分布偏差:将视频时间轴离散为n个等分,形成 \(n(n+1)/2\) 个时序bin(起止时间对),计算当前分布与均匀分布的JS散度。SVLTA在所有偏差类型上的TJSD均远低于现有数据集。

实验关键数据

VidLLM时序问答性能(R@1)

模型 尺寸 IoU=0.1 IoU=0.3 IoU=0.5 IoU=0.7 mIoU
Video-LLaVA 7B 8.22 3.19 0.96 0.23 2.59
Video-LLaMA2 7B 35.48 16.02 6.64 2.28 12.33
TimeChat 7B 23.29 13.58 6.96 3.25 9.61
Gemini 1.5 Pro 32.30 17.45 7.45 3.15 12.48
GPT-4o 49.54 27.38 11.69 5.62 18.90

时序分布偏差对比(TJSD,越低越好)

数据集 Process ↓ Verb ↓ Object ↓ Composition ↓
TACoS 0.243 0.786 0.787 0.899
Charades-STA 0.287 0.739 0.877 0.881
MAD 0.628 0.842 0.869 0.926
SVLTA 0.073 0.266 0.101 0.322

分布偏移敏感性(RC指标,越低越好=越鲁棒)

模型 RC ↓ 高偏差mIoU 低偏差mIoU 性能下降
2D-TAN 10.85 76.41 66.66 -9.75
VSLNet 14.31 92.63 79.16 -13.47
QD-DETR

关键发现

  1. VidLLM时序能力极弱——即使是GPT-4o,在IoU=0.5时R@1仅11.69%,IoU=0.7时仅5.62%,说明当前VidLLM几乎不具备精确时序对齐能力
  2. 时间感知模型未必更好——专门设计的时间感知模型(TimeChat、VTimeLLM)并未显著超越通用VidLLM
  3. 现有模型对时序偏差高度敏感——从有偏差测试集到低偏差测试集,所有模型性能均显著下降(最高降15.66%),包括专门设计的去偏模型
  4. SVLTA时序分布最均衡——在所有四级TJSD上均远低于现有数据集,是唯一同时具备可扩展、可控、合成、组合和无偏五大特性的基准

亮点与洞察

  1. 从分解视角系统定义时序偏差——首次将时序偏差分为过程级(视频级)、组合级(动作级)、实体级(动词/名词级)三层,避免"头痛医头"式的单一偏差分析
  2. ICGF优于传统对抗过滤——将去偏建模为约束优化问题,比贪心的迭代过滤更全局化
  3. 自动标注+零噪声——通过程序自动记录动作时间戳,完全避免了人类标注的主观性和不一致性
  4. 诊断性强——从时序问答、分布偏移、域适应三个维度全方位暴露模型弱点,当前模型在时序理解上的不足远比通常认为的严重

局限性

  1. 合成视频的视觉真实感有限(VirtualHome渲染质量远低于真实视频),可能导致评估结果与真实场景存在偏差
  2. 仅覆盖家庭室内场景和人类活动,动作类型(96种)和场景多样性有限
  3. 模板生成的语言描述虽然准确但缺乏自然语言的多样性和复杂性
  4. 基准主要关注时序对齐而非语义理解,模型综合能力的评估不够全面

相关工作与启发

  • 视频时序对齐: TACoS、Charades-STA、ActivityNet等基于真实视频但存在标注噪声和时序偏差,SVLTA通过合成方式从根本上解决
  • 合成数据生成: AGQA、ViLMA等使用合成数据评估视频理解,但未专注于时序对齐的公平性控制
  • 启发: 在评估面临"真实数据不可控"困境时,合成数据+精确控制可能是构建公平诊断基准的最佳路径;SVLTA暴露的VidLLM时序弱点提示需要在训练中显式强化时序建模

评分

⭐⭐⭐⭐ — 问题定义清晰(时序偏差)、方法设计系统(从常识图到全局过滤)、发现有价值(VidLLM时序极弱),但合成视频的视觉真实感偏差和场景覆盖有限是主要限制

相关论文