FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding¶

会议: AAAI 2026
arXiv: 2601.17258
代码: https://finevau.github.io
领域: 多模态VLM
关键词: 视频异常理解, 评估基准, LLM评判, 细粒度评估, 人类对齐

一句话总结¶

本文提出FineVAU基准，将视频异常理解 (VAU) 分解为事件(What)、实体(Who)、地点(Where)三个维度，设计了与人类感知高度对齐的FV-Score评估指标，并通过全自动LVLM辅助管线构建了FineW³数据集，实验揭示当前LVLM在细粒度异常事件感知上的关键短板。

研究背景与动机¶

领域现状¶

视频异常理解 (Video Anomaly Understanding, VAU) 是视频监控中的核心任务。随着大型视觉语言模型 (LVLM) 的兴起，VAU 从简单的二分类（正常/异常）发展到更丰富的任务形态，包括密集描述、视频问答和推理链分析等。

现有痛点¶

现有 VAU 评估方法存在两大类致命问题：

N-gram类指标（如BLEU、ROUGE-L）仅测量词汇重叠，无法捕捉自由形式回答的语义等价性。一个事实正确但用词不同的描述会被错误惩罚。

LLM-based指标（如AnomEVAL、VAU-EVAL）侧重评估语言流畅性和推理一致性，缺乏对异常视频特定元素的细粒度检测。这些指标给出模糊、主观的分数，与人类对异常的感知严重不对齐。

核心矛盾¶

评估指标与人类关注点之间存在鸿沟——人类在判断异常描述质量时，主要关注三个核心问题："发生了什么事件"、"谁参与了"、"在哪里发生"，而非文本的流畅度或词汇匹配度。

切入角度¶

作者将 VAU 界定为一个三维度结构化问题，通过检测 LVLM 输出中是否涵盖关键视觉元素来评估质量，而非依赖主观打分。

方法详解¶

整体框架¶

FineVAU 包含三个核心贡献： 1. 问题定义：将 VAU 形式化为 What/Who/Where 三维评估问题 2. FV-Score 指标：提出基于 LLM 的结构化评估指标 3. FineW³ 数据集：通过自动化管线构建精细标注数据集

关键设计¶

1. 三维结构化评估框架¶

What (事件维度)：捕捉关键动作（如"放火"）、交互（如"打架"）和孤立状态变化（如"爆炸"），使用三级评分（0=缺失/错误，0.5=部分正确，1=完全准确）
Who (实体维度)：描述参与异常的实体及其视觉属性（服装、年龄、性别等），使用二级评分（0/1）
Where (地点维度)：涵盖物理环境、时间、光照条件、人群密度等，使用二级评分（0/1）
设计动机：人类感知异常时本能地关注这三个维度。不同于现有指标的复杂评分标准，简化为二/三级评分可以降低 LLM 评判的难度并提高可解释性

2. FV-Score 与 FineVAU-Judge¶

定义结构化评分函数：\(\mathcal{S}(R) = \lambda_{what} \cdot \mathcal{J}_{what}(R) + \lambda_{who} \cdot \mathcal{J}_{who}(R) + \lambda_{where} \cdot \mathcal{J}_{where}(R)\)
使用 Gemini-2.5-Flash 作为 LLM 评判器，对每个GT元素判断语义成员性
核心思路：将评估转化为"多部分检测问题"——检查报告中是否覆盖了 GT 中的关键元素
权重消融实验表明 \(\lambda_{who}=2.0\) 时与人类判断最对齐，说明人类高度重视实体识别

3. FineW³ 数据集构建¶

两阶段全自动标注管线，基于高质量人工标注 (UCA数据集) 进行增强：
- Stage 1（事件分解与实体链接）：LVLM 将复杂事件描述分解为因果链式原子事件，补充遗漏事件，识别并链接参与实体
- Stage 2（实体定位与场景描述）：为每个实体补充细粒度物理属性，描述场景特征
使用 Gemini-2.5-Pro，以 1fps 采样帧 + 原始 UCA 标注作为输入
最终数据集：1544 个视频，17813 个事件（13393正常+4420异常），59392 个实体，74593 个属性，7669 个地点属性

人类对齐验证¶

60 个视频，8 名人类专家，180 个排名判断
使用 4 种相关性度量（PCC、1-R²、Kendall τ、Spearman τ）

实验关键数据¶

主实验¶

模型	总体	地点	事件	实体	属性
InternVL3-9B	40.5	71.8	18.0	51.2	25.5
LLaVA-VID-7B	35.0	65.7	14.4	44.0	21.0
LLaVA-OV-7B	32.2	58.3	13.0	41.1	19.9
Qwen2.5-VL-7B	32.9	70.8	9.1	38.3	20.3
VideoLLaMA3-7B	19.3	40.3	6.5	24.3	10.2
平均	32.0	61.3	12.2	39.8	19.4

消融实验（指标人类对齐度）¶

指标	PCC ρ↑	1-R²↓	Kendall τ↑	Spearman τ↑
FV-Score (本文)	0.61	0.63	0.56	0.56
VAU-EVAL	0.53	0.72	0.49	0.47
ROUGE-L	0.47	0.78	0.43	0.44
AnomEVAL	0.42	0.82	0.39	0.37
BLEU	0.19	0.96	0.17	0.17
CIDEr	-0.63	0.60	-0.59	-0.58

FV-Score 权重消融¶

λ_what	λ_who	λ_where	PCC ρ↑	Kendall τ↑
1.0	2.0	1.0	0.61	0.56
2.0	1.0	1.0	0.56	0.50
1.0	1.0	1.0	0.51	0.46
1.0	1.0	2.0	0.47	0.42

关键发现¶

LVLM擅长静态粗粒度信息：地点维度平均61.3%，远高于事件维度12.2%
事件理解极其薄弱：仅12.2%的平均准确率，尤其是缺乏强视觉线索的异常（如入店行窃）
LVLM存在"正常偏向"：模型倾向于将异常事件描述为正常行为（如把打架描述为对话）
实体识别比事件更容易：39.8% vs 12.2%，但仍有很大提升空间
InternVL3全面领先：在所有维度上均获得最佳性能

亮点与洞察¶

评估范式创新：从主观打分转向结构化元素检测，大幅提升可解释性
Who维度权重最高：消融实验揭示人类评估异常描述时最看重参与实体的准确识别，这一发现反直觉但有据可查
揭示LVLM盲点：当前模型在理解细粒度时空事件上存在根本性缺陷，这不是通过简单scaling就能解决的
全自动标注管线：可扩展到更多数据集，为VAU数据构建提供了可复用方案

局限与展望¶

数据集来源于CCTV监控视频，场景多样性有限
评估依赖单一LLM (Gemini-2.5-Flash)，可能存在评判偏差
目前仅评估开源7-9B模型，未涵盖更大规模或闭源模型
三维度框架可能遗漏"Why"（异常原因）这一重要维度
事件维度的三级评分标准中，0.5分的判定可能仍有主观性

评分¶

新颖性: ⭐⭐⭐⭐ （评估范式创新，但本质上是一个benchmark工作）
实验充分度: ⭐⭐⭐⭐⭐ （人类对齐验证完善，多维度消融充分）
写作质量: ⭐⭐⭐⭐⭐ （逻辑清晰，图表丰富）
价值: ⭐⭐⭐⭐ （为VAU评估提供了更好的标准，但应用范围较窄）