HumanVBench: Probing Human-Centric Video Understanding in MLLMs with Automatically Synthesized Benchmarks¶

会议: CVPR 2026
arXiv: 2412.17574
代码: https://github.com/datajuicer/data-juicer/tree/HumanVBench
领域: 视频理解 / 多模态评测
关键词: 以人为中心的视频理解, 多模态大模型评测, 自动基准构建, 情感感知, 语音视觉对齐

一句话总结¶

提出 HumanVBench，一个包含 16 个细粒度任务的视频基准，通过两个自动化管道（视频标注+干扰项生成）系统评估 MLLM 的以人为中心视频理解能力，揭示了当前模型在情感感知和语音-视觉对齐方面的显著不足。

两条核心管道：(1) 以人为中心的视频标注管道：利用 20+ SOTA 算子产生密集多模态标注；(2) 含干扰项的 QA 合成管道：生成高质量选择题并利用多模型集成的错误答案作为干扰项。最终基准包含 2475 道题覆盖 16 个任务。

以人为中心的视频标注管道:
- 功能：从原始视频自动生成密集、细粒度的以人为中心标注
- 核心思路：首先进行人物追踪（video_human_tracks_extraction）得到可靠的人物轨迹和计数。然后从轨迹中提取人口统计信息、外观描述、面部表情描述。音频方面进行活跃说话人检测、ASR 转录、语音情感识别和声学特征分析。
- 设计动机：通过集成多个任务特定算子实现自动化，避免大规模人工标注。
含干扰项的 QA 合成管道:
- 功能：生成语义合理且具有区分性的选择题
- 核心思路：多个 MLLM（Gemini、VideoLLaMA3、ShareGPT4Video）分别生成候选答案，通过偏好投票排序。最高票作为正确答案，其他错误答案因反映典型模型错误而被保留为干扰项。若语义不足则 LLM 引入任务特定扰动。
- 设计动机：保留模型常犯错误作为干扰项既保证合理性又增加难度。约 72% 题目无需人工修正。
16 个细粒度任务设计:
- 功能：全面评估以人为中心的视频理解能力
- 核心思路：分为内在情感（情感识别、情感时序分析、态度识别、情感强度对比）和外在表现（人物识别4任务、行为分析4任务、语音-视觉对齐4任务），共 16 个任务。
- 设计动机：覆盖从基础感知到高级推理的完整评估层级。

基准构建，无训练。通过答案泄露检测（无视觉输入测试）移除约 6% 频繁正确的题目。

模型	情感	人物识别	行为	语音-视觉	总体
Gemini-2.5-Pro	52.9	83.5	70.7	86.5	73.4
Qwen-VL3 (7B)	43.2	67.6	54.3	48.3	53.4
GPT-5	46.8	69.5	67.3	-	-
人类 (研究生)	84.6	88.5	87.0	94.4	88.6