SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video Situation¶

会议: CVPR 2025
arXiv: 2504.05925
代码: https://svlta-ai.github.io/SVLTA (有)
领域: 多模态VLM
关键词: 视觉-语言时序对齐, 合成视频, 时序偏差, 基准测试, 视频大模型

一句话总结¶

提出SVLTA，一个通过合成模拟环境生成的视觉-语言时序对齐基准，包含25.3K动态场景、96种组合动作和77.1K高质量时序标注，具备可控、组合、无偏的时序分布，从时序问答、分布偏移敏感性和时序适应三个维度揭示当前VidLLM严重缺乏时序对齐能力（最强GPT-4o在IoU=0.5时R@1仅11.69%）。

研究背景与动机¶

视觉-语言时序对齐（将视频内容与语言描述在时间维度上同步）是人类认知世界的基础能力，对理解动态场景至关重要。然而，当前评估体系存在严重缺陷：

领域现状：多模态大语言模型（MLLM）在语义理解上取得巨大进展，但对时间维度的建模能力几乎未被系统评估。现有基准（TACoS、Charades-STA、ActivityNet等）主要关注语义相关性而忽视时序精度。

现有痛点： 1. 时序分布偏差——现有数据集中动作的起止时间分布严重不均衡，模型可能通过偏差而非真正的时序理解来取得高分 2. 标注不精确——人类标注者对同一段视频给出不一致的时序标注（不同人对"动作开始/结束"的认知不同），导致标注噪声 3. 组合性不足——缺乏对动作组合的系统覆盖，限制了对模型时序推理能力的全面诊断

核心矛盾：真实视频中时序分布不可控、标注主观不一致、动作组合难以系统化——这些根本性问题使得现有基准无法公平、全面地评估时序对齐能力。

切入角度：利用合成模拟环境（VirtualHome）生成视频，可以精确控制时序分布、自动生成无噪声标注、系统化组合动作，从而构建一个诊断性基准。

方法详解¶

整体框架¶

SVLTA的构建流程包含五个阶段：(1) 情境组件初始化——定义96种动作、7个场景、6个角色；(2) 常识活动图构建——基于动作间的合理依赖关系构建图，通过图遍历生成逻辑动作链；(3) 可控活动脚本——通过动作时长多样化（ADD）和动作排列（AP）控制时序分布；(4) 合成视频和语言生成——在VirtualHome模拟器中执行功能程序生成视频，用模板生成语句；(5) 视觉-语言时序对齐——自动关联时间戳与动作。评估从三个维度进行：时序问答、分布偏移敏感性和时序对齐适应。

关键设计¶

常识活动图与逻辑动作链生成（Commonsense Activity Graph）
- 功能：生成合理且多样的动作组合序列，确保每个动作序列符合人类常识
- 核心思路：
- 手动检验动作间的依赖关系（如"打开冰箱"必须在"拿取食物"之前），构建有向活动图
- 使用DFS/BFS图遍历算法生成指定长度的逻辑动作链
- 提出重采样策略：由于不同动作在图中的度数不均衡（某些动作有更多前驱条件），对低度数节点增加采样权重，确保所有候选动作被均匀选中
- 设计动机：随机组合动作会产生不合理序列（如"关冰箱→拿三明治"语义矛盾），基于常识知识的图结构保证动作链的合理性
可控时序分布策略（Controllable Activity Manuscript）
- 功能：消除时序分布偏差，确保每个动作能出现在视频的任意位置且有多样的持续时长
- 核心思路：两个互补策略：
- 动作时长多样化（ADD）：通过不同的视频帧率改变同一动作的持续时间，使时序分布更均匀
- 动作排列（AP）：在满足常识依赖关系的前提下排列动作顺序，使每个动作尽可能出现在更多不同的时间位置
- 设计动机：直接使用逻辑动作链生成视频会引入时序偏差——某些动作总是出现在开头/结尾，且持续时间固定
不等式约束全局过滤（Inequality Constrained Global Filtering, ICGF）
- 功能：作为后处理步骤，从全局视角进一步平衡时序分布
- 核心思路：将去偏差建模为带不等式约束的非线性优化问题：
- 优化目标：最小化当前分布与均匀分布的绝对偏差
- 约束条件：过滤掉的样本数不超过给定比例（控制样本量不能太小）
- 对比传统对抗性过滤（AF）方法，ICGF提供更优的全局去偏效果
- 设计动机：ADD和AP仅在每个逻辑动作链内（局部）控制分布，全局视角可能仍存在偏差；需要全局后处理来补充

评估指标¶

提出时序Jensen-Shannon散度（TJSD）度量数据集的时序分布偏差：将视频时间轴离散为n个等分，形成 \(n(n+1)/2\) 个时序bin（起止时间对），计算当前分布与均匀分布的JS散度。SVLTA在所有偏差类型上的TJSD均远低于现有数据集。

实验关键数据¶

VidLLM时序问答性能（R@1）¶

模型	尺寸	IoU=0.1	IoU=0.3	IoU=0.5	IoU=0.7	mIoU
Video-LLaVA	7B	8.22	3.19	0.96	0.23	2.59
Video-LLaMA2	7B	35.48	16.02	6.64	2.28	12.33
TimeChat	7B	23.29	13.58	6.96	3.25	9.61
Gemini 1.5 Pro	—	32.30	17.45	7.45	3.15	12.48
GPT-4o	—	49.54	27.38	11.69	5.62	18.90

时序分布偏差对比（TJSD，越低越好）¶

数据集	Process ↓	Verb ↓	Object ↓	Composition ↓
TACoS	0.243	0.786	0.787	0.899
Charades-STA	0.287	0.739	0.877	0.881
MAD	0.628	0.842	0.869	0.926
SVLTA	0.073	0.266	0.101	0.322

分布偏移敏感性（RC指标，越低越好=越鲁棒）¶

模型	RC ↓	高偏差mIoU	低偏差mIoU	性能下降
2D-TAN	10.85	76.41	66.66	-9.75
VSLNet	14.31	92.63	79.16	-13.47
QD-DETR	—	—	—	—

关键发现¶

VidLLM时序能力极弱——即使是GPT-4o，在IoU=0.5时R@1仅11.69%，IoU=0.7时仅5.62%，说明当前VidLLM几乎不具备精确时序对齐能力
时间感知模型未必更好——专门设计的时间感知模型（TimeChat、VTimeLLM）并未显著超越通用VidLLM
现有模型对时序偏差高度敏感——从有偏差测试集到低偏差测试集，所有模型性能均显著下降（最高降15.66%），包括专门设计的去偏模型
SVLTA时序分布最均衡——在所有四级TJSD上均远低于现有数据集，是唯一同时具备可扩展、可控、合成、组合和无偏五大特性的基准

亮点与洞察¶

从分解视角系统定义时序偏差——首次将时序偏差分为过程级（视频级）、组合级（动作级）、实体级（动词/名词级）三层，避免"头痛医头"式的单一偏差分析
ICGF优于传统对抗过滤——将去偏建模为约束优化问题，比贪心的迭代过滤更全局化
自动标注+零噪声——通过程序自动记录动作时间戳，完全避免了人类标注的主观性和不一致性
诊断性强——从时序问答、分布偏移、域适应三个维度全方位暴露模型弱点，当前模型在时序理解上的不足远比通常认为的严重

局限性¶

合成视频的视觉真实感有限（VirtualHome渲染质量远低于真实视频），可能导致评估结果与真实场景存在偏差
仅覆盖家庭室内场景和人类活动，动作类型（96种）和场景多样性有限
模板生成的语言描述虽然准确但缺乏自然语言的多样性和复杂性
基准主要关注时序对齐而非语义理解，模型综合能力的评估不够全面

评分¶

⭐⭐⭐⭐ — 问题定义清晰（时序偏差）、方法设计系统（从常识图到全局过滤）、发现有价值（VidLLM时序极弱），但合成视频的视觉真实感偏差和场景覆盖有限是主要限制