FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding¶
会议: AAAI 2026
arXiv: 2601.17258
代码: https://finevau.github.io
领域: 多模态VLM
关键词: 视频异常理解, 评估基准, LLM评判, 细粒度评估, 人类对齐
一句话总结¶
本文提出FineVAU基准,将视频异常理解 (VAU) 分解为事件(What)、实体(Who)、地点(Where)三个维度,设计了与人类感知高度对齐的FV-Score评估指标,并通过全自动LVLM辅助管线构建了FineW³数据集,实验揭示当前LVLM在细粒度异常事件感知上的关键短板。
研究背景与动机¶
领域现状¶
视频异常理解 (Video Anomaly Understanding, VAU) 是视频监控中的核心任务。随着大型视觉语言模型 (LVLM) 的兴起,VAU 从简单的二分类(正常/异常)发展到更丰富的任务形态,包括密集描述、视频问答和推理链分析等。
现有痛点¶
现有 VAU 评估方法存在两大类致命问题:
N-gram类指标(如BLEU、ROUGE-L)仅测量词汇重叠,无法捕捉自由形式回答的语义等价性。一个事实正确但用词不同的描述会被错误惩罚。
LLM-based指标(如AnomEVAL、VAU-EVAL)侧重评估语言流畅性和推理一致性,缺乏对异常视频特定元素的细粒度检测。这些指标给出模糊、主观的分数,与人类对异常的感知严重不对齐。
核心矛盾¶
评估指标与人类关注点之间存在鸿沟——人类在判断异常描述质量时,主要关注三个核心问题:"发生了什么事件"、"谁参与了"、"在哪里发生",而非文本的流畅度或词汇匹配度。
切入角度¶
作者将 VAU 界定为一个三维度结构化问题,通过检测 LVLM 输出中是否涵盖关键视觉元素来评估质量,而非依赖主观打分。
方法详解¶
整体框架¶
FineVAU 包含三个核心贡献: 1. 问题定义:将 VAU 形式化为 What/Who/Where 三维评估问题 2. FV-Score 指标:提出基于 LLM 的结构化评估指标 3. FineW³ 数据集:通过自动化管线构建精细标注数据集
关键设计¶
1. 三维结构化评估框架¶
- What (事件维度):捕捉关键动作(如"放火")、交互(如"打架")和孤立状态变化(如"爆炸"),使用三级评分(0=缺失/错误,0.5=部分正确,1=完全准确)
- Who (实体维度):描述参与异常的实体及其视觉属性(服装、年龄、性别等),使用二级评分(0/1)
- Where (地点维度):涵盖物理环境、时间、光照条件、人群密度等,使用二级评分(0/1)
- 设计动机:人类感知异常时本能地关注这三个维度。不同于现有指标的复杂评分标准,简化为二/三级评分可以降低 LLM 评判的难度并提高可解释性
2. FV-Score 与 FineVAU-Judge¶
- 定义结构化评分函数:\(\mathcal{S}(R) = \lambda_{what} \cdot \mathcal{J}_{what}(R) + \lambda_{who} \cdot \mathcal{J}_{who}(R) + \lambda_{where} \cdot \mathcal{J}_{where}(R)\)
- 使用 Gemini-2.5-Flash 作为 LLM 评判器,对每个GT元素判断语义成员性
- 核心思路:将评估转化为"多部分检测问题"——检查报告中是否覆盖了 GT 中的关键元素
- 权重消融实验表明 \(\lambda_{who}=2.0\) 时与人类判断最对齐,说明人类高度重视实体识别
3. FineW³ 数据集构建¶
- 两阶段全自动标注管线,基于高质量人工标注 (UCA数据集) 进行增强:
- Stage 1(事件分解与实体链接):LVLM 将复杂事件描述分解为因果链式原子事件,补充遗漏事件,识别并链接参与实体
- Stage 2(实体定位与场景描述):为每个实体补充细粒度物理属性,描述场景特征
- 使用 Gemini-2.5-Pro,以 1fps 采样帧 + 原始 UCA 标注作为输入
- 最终数据集:1544 个视频,17813 个事件(13393正常+4420异常),59392 个实体,74593 个属性,7669 个地点属性
人类对齐验证¶
- 60 个视频,8 名人类专家,180 个排名判断
- 使用 4 种相关性度量(PCC、1-R²、Kendall τ、Spearman τ)
实验关键数据¶
主实验¶
| 模型 | 总体 | 地点 | 事件 | 实体 | 属性 |
|---|---|---|---|---|---|
| InternVL3-9B | 40.5 | 71.8 | 18.0 | 51.2 | 25.5 |
| LLaVA-VID-7B | 35.0 | 65.7 | 14.4 | 44.0 | 21.0 |
| LLaVA-OV-7B | 32.2 | 58.3 | 13.0 | 41.1 | 19.9 |
| Qwen2.5-VL-7B | 32.9 | 70.8 | 9.1 | 38.3 | 20.3 |
| VideoLLaMA3-7B | 19.3 | 40.3 | 6.5 | 24.3 | 10.2 |
| 平均 | 32.0 | 61.3 | 12.2 | 39.8 | 19.4 |
消融实验(指标人类对齐度)¶
| 指标 | PCC ρ↑ | 1-R²↓ | Kendall τ↑ | Spearman τ↑ |
|---|---|---|---|---|
| FV-Score (本文) | 0.61 | 0.63 | 0.56 | 0.56 |
| VAU-EVAL | 0.53 | 0.72 | 0.49 | 0.47 |
| ROUGE-L | 0.47 | 0.78 | 0.43 | 0.44 |
| AnomEVAL | 0.42 | 0.82 | 0.39 | 0.37 |
| BLEU | 0.19 | 0.96 | 0.17 | 0.17 |
| CIDEr | -0.63 | 0.60 | -0.59 | -0.58 |
FV-Score 权重消融¶
| λ_what | λ_who | λ_where | PCC ρ↑ | Kendall τ↑ |
|---|---|---|---|---|
| 1.0 | 2.0 | 1.0 | 0.61 | 0.56 |
| 2.0 | 1.0 | 1.0 | 0.56 | 0.50 |
| 1.0 | 1.0 | 1.0 | 0.51 | 0.46 |
| 1.0 | 1.0 | 2.0 | 0.47 | 0.42 |
关键发现¶
- LVLM擅长静态粗粒度信息:地点维度平均61.3%,远高于事件维度12.2%
- 事件理解极其薄弱:仅12.2%的平均准确率,尤其是缺乏强视觉线索的异常(如入店行窃)
- LVLM存在"正常偏向":模型倾向于将异常事件描述为正常行为(如把打架描述为对话)
- 实体识别比事件更容易:39.8% vs 12.2%,但仍有很大提升空间
- InternVL3全面领先:在所有维度上均获得最佳性能
亮点与洞察¶
- 评估范式创新:从主观打分转向结构化元素检测,大幅提升可解释性
- Who维度权重最高:消融实验揭示人类评估异常描述时最看重参与实体的准确识别,这一发现反直觉但有据可查
- 揭示LVLM盲点:当前模型在理解细粒度时空事件上存在根本性缺陷,这不是通过简单scaling就能解决的
- 全自动标注管线:可扩展到更多数据集,为VAU数据构建提供了可复用方案
局限与展望¶
- 数据集来源于CCTV监控视频,场景多样性有限
- 评估依赖单一LLM (Gemini-2.5-Flash),可能存在评判偏差
- 目前仅评估开源7-9B模型,未涵盖更大规模或闭源模型
- 三维度框架可能遗漏"Why"(异常原因)这一重要维度
- 事件维度的三级评分标准中,0.5分的判定可能仍有主观性
相关工作与启发¶
- UCA (Yuan et al., CVPR 2024) 首创密集人工标注描述,但采用N-gram评估
- HAWK (Tang et al., NeurIPS 2024) 提出合成描述,但评估标准仍以语言质量为主
- Holmes-VAU (Zhang et al., CVPR 2025) 多粒度描述,但缺乏实体和场景信息
- 评估方法启发:结构化分解+元素检测的思路可推广到其他视觉理解任务的评估
评分¶
- 新颖性: ⭐⭐⭐⭐ (评估范式创新,但本质上是一个benchmark工作)
- 实验充分度: ⭐⭐⭐⭐⭐ (人类对齐验证完善,多维度消融充分)
- 写作质量: ⭐⭐⭐⭐⭐ (逻辑清晰,图表丰富)
- 价值: ⭐⭐⭐⭐ (为VAU评估提供了更好的标准,但应用范围较窄)
相关论文¶
- [CVPR 2026] Text-guided Fine-Grained Video Anomaly Understanding
- [AAAI 2026] ElementaryNet: A Non-Strategic Neural Network for Predicting Human Behavior in Normal-Form Games
- [AAAI 2026] GateRA: Token-Aware Modulation for Parameter-Efficient Fine-Tuning
- [AAAI 2026] FlashKAT: Understanding and Addressing Performance Bottlenecks in the Kolmogorov-Arnold Transformer
- [AAAI 2026] Voices, Faces, and Feelings: Multi-modal Emotion-Cognition Captioning for Mental Health Understanding