Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity¶

会议: CVPR 2025
arXiv: 2412.06171
代码: https://github.com/pipixin321/HolmesVAU
领域: 视频理解
关键词: 视频异常理解, 多粒度标注, 异常聚焦采样, 多模态大语言模型, 层次化指令数据

一句话总结¶

本文提出 Holmes-VAU，构建了包含 70k+ 多粒度标注的视频异常理解基准 HIVAU-70k，并设计异常聚焦时序采样器（ATS）让多模态 VLM 集中关注异常密集区域，在长视频异常检测和推理任务上大幅超越现有方法。

研究背景与动机¶

领域现状：视频异常理解（VAU）是视频监控、暴力内容分析、自动驾驶等应用的核心任务。传统方法主要做帧级异常评分，将异常检测当作一个闭集预测问题。近期多模态方法开始结合视觉和文本信息，利用 VLM 进行异常相关的指令微调和文本生成。
现有痛点：现有 VAU 数据集通常只在单一时间粒度上提供标注——要么是短片段级别（clip-level），要么是视频级别（video-level）。这导致模型只能理解瞬时异常（如爆炸、打斗）或需要长期上下文的复杂事件（如盗窃、纵火），无法兼顾。此外，现有方法在处理长视频时通常采用均匀采样，容易遗漏关键异常帧或引入过多冗余计算。
核心矛盾：缺乏层次化的多粒度异常标注数据，使得模型无法同时在短期感知和长期推理层面理解异常；均匀采样策略将相同的注意力分配给异常帧和正常帧，对长视频不友好。
本文目标 (1) 构建多粒度层次化异常理解数据集；(2) 设计高效的长视频异常采样策略。
切入角度：作者观察到异常帧通常包含更多信息且变化更大，因此应自适应地在异常密集区域采样更多帧。同时，通过半自动标注引擎将 LLM 与人工分割结合，高效生成多级标注。
核心 idea：用半自动引擎构建 clip/event/video 三级异常指令数据，结合异常聚焦时序采样器让 VLM 高效处理长视频异常。

方法详解¶

整体框架¶

Holmes-VAU 的整体流程为：输入一个长视频，首先通过冻结的视觉编码器（InternVL2 的 ViT）提取每帧的视觉 token；然后通过异常聚焦时序采样器（ATS）自适应选择 N 个关键帧；选中帧的视觉 token 经投影器映射到语言特征空间，与文本提示拼接后输入预训练大语言模型，最终生成异常描述和分析文本。训练分两步：第一步用帧级标签训练异常评分器，第二步用 HIVAU-70k 的全部指令数据通过 LoRA 微调 VLM。

关键设计¶

HIVAU-70k 半自动标注引擎:
- 功能：高效构建包含 70,000+ 多粒度标注的视频异常理解基准
- 核心思路：分三步完成。(1) 层次化视频解耦——人工标定异常事件时间边界，将事件进一步切分为随机长度的 clip，共得到 5443 个视频、11076 个事件、55806 个 clip。(2) 层次化自由文本标注——用 LLaVA-Next-Video 对每个 clip 生成详细描述，再用 LLM 将 clip 描述汇总为事件级摘要（包括判断、描述、分析三部分），最后汇总为视频级摘要。(3) 层次化指令构建——将自由文本与预设的异常相关问题模板配对，形成 QA 形式的指令数据。整个标注过程仅需 5 名标注员约 20 小时完成视频分割。
- 设计动机：纯人工标注成本过高且不可扩展，而纯自动标注质量不可控。通过将"分割"交给人工、将"描述和推理"交给 LLM 再人工审核的流程，兼顾了质量和效率。
异常聚焦时序采样器（ATS）:
- 功能：从长视频的 T 帧中自适应选择 N 个关键帧，使 VLM 集中在异常密集区域
- 核心思路：ATS 由两个组件构成。(a) 异常评分器 \(\phi_s\)：基于 UR-DMU 的轻量 VAD 网络，对每帧的 CLS token 预测异常分数 \(s_i\)。(b) 密度感知采样器：将异常分数视为概率质量函数，计算累积分布函数 \(S_{cumsum}(t) = \sum_{i=1}^{t}(s_i + \tau)\)，然后沿累积轴均匀取 N 个点，映射回时间轴得到采样帧索引。\(\tau=0.1\) 控制采样均匀度——\(\tau\) 越大采样越接近均匀，\(\tau\) 越小越聚焦异常区域。
- 设计动机：均匀采样会遗漏关键异常帧，Top-K 采样会丢失上下文信息（只关注局部异常帧），而 ATS 通过概率密度的方式在异常密集区域分配更多采样点，同时保留正常区域的时间上下文，平衡了覆盖性和聚焦性。
指令微调与 LoRA 适配:
- 功能：在保持 VLM 原有通用能力的前提下注入异常理解知识
- 核心思路：采用 InternVL2-2B 作为基座模型，冻结视觉编码器和投影器参数。用 LoRA（\(r=64, \alpha=128\)）微调语言模型，batch size 512 训练 1 个 epoch，使用 AdamW + cosine decay 优化。\(r\) 的选择通过消融实验确定——\(r\) 过大会损害通用视频理解能力。
- 设计动机：全量微调会破坏 LLM 原有能力且计算成本高，LoRA 是当前最成熟的高效微调方案，\(r=64\) 在 VAU 专项能力和通用能力之间取得最佳平衡。

损失函数 / 训练策略¶

训练分两阶段。第一阶段用 HIVAU-70k 的帧级标签训练异常评分器，损失函数为标准二分类交叉熵 \(\mathcal{L}_{AS} = -\sum_{i=1}^{T}(s_i \log(\hat{y}_i) + (1-s_i)\log(1-\hat{y}_i))\)。第二阶段固定异常评分器，用全部指令数据通过交叉熵损失微调 VLM 的 LoRA 参数。注意在评估 UCF-Crime 和 XD-Violence 的异常检测性能时，只用对应训练集训练以确保公平。

实验关键数据¶

主实验¶

异常检测性能对比（表1）：

方法	类型	XD-Violence AP(%)	UCF-Crime AUC(%)
UR-DMU	弱监督	81.66	86.97
VadCLIP	弱监督	84.51	88.02
LAVAD	可解释多模态	62.01	80.28
Holmes-VAU	可解释多模态	87.68	88.96

异常推理性能对比（表2），Video-level：

方法	参数量	BLEU↑	CIDEr↑	METEOR↑	ROUGE↑
InternVL2	8B	0.145	0.035	0.101	0.122
QwenVL2	7B	0.155	0.044	0.112	0.137
Holmes-VAU	2B	0.566	1.437	0.165	0.355

消融实验¶

层次化指令数据消融（表3）：

训练数据	Clip BLEU	Event CIDEr	Video CIDEr
C only	0.984	0.120	0.106
E only	0.508	1.183	0.872
C+E	0.889	1.285	0.889
C+E+V	0.913	1.519	1.437

采样策略消融（表4，N=16）：

采样方法	Video BLEU↑	Video CIDEr↑
Top-K	0.476	1.302
Uniform	0.511	1.345
ATS	0.566	1.437

关键发现¶

三级层次化数据各有贡献：clip 级提升视觉感知，event 级提升事件判断，video 级提升长程推理分析。三者联合使用效果最佳。
ATS 在所有帧数设置（8/16/32）下均优于 Uniform 和 Top-K 采样，且推理延迟可接受。
LoRA 的 \(r\) 值存在 sweet spot：\(r=64\) 时 VAU 能力和通用能力最优平衡，\(r\) 过大会显著损害 Video-MME 上的通用性能。
仅用 2B 模型即大幅超越 7-8B 通用 VLM，说明领域特定指令数据的重要性远超模型规模。

亮点与洞察¶

密度感知采样思想：将异常分数当作概率密度函数，通过累积分布函数做非均匀采样，是一种优雅的自适应采样策略。这个思想可以迁移到任何需要"重要性采样"的序列处理场景，如视频摘要、关键帧提取等。
半自动标注引擎的分层设计：将标注任务分解为"人工做粗粒度分割 + LLM 做细粒度文本标注 + 人工审核"，是一种通用的大规模数据集构建方法论，可迁移到其他视频理解任务。
小模型 + 好数据 > 大模型：2B 的 Holmes-VAU 在异常理解上大幅超越 7-8B 的通用 VLM，证明了领域指令数据的价值。

局限与展望¶

数据集基于 UCF-Crime 和 XD-Violence，场景以监控视频为主，缺乏自动驾驶、医疗等更广泛的异常场景。
异常评分器基于 UR-DMU 架构，需要帧级标注训练，在完全无标注场景下无法直接使用。
ATS 的 \(\tau\) 需要手动设置，未来可以探索自适应调节。
仅使用 InternVL2-2B 作为基座，更大模型（如 7B/13B）可能获得更强的推理能力。
对于极长视频（数小时），采样帧数 N=16 可能仍然不够，需要更高效的处理方式。

评分¶

新颖性: ⭐⭐⭐⭐ 多粒度异常理解框架和 ATS 采样策略有新意，但个别组件（异常评分器、LoRA 微调）是已有技术的组合
实验充分度: ⭐⭐⭐⭐⭐ 在检测和推理两个维度上与大量方法对比，消融实验覆盖数据粒度、采样策略和微调参数
写作质量: ⭐⭐⭐⭐ 结构清晰，motivation 推导自然，但部分技术细节需参考附录
价值: ⭐⭐⭐⭐ HIVAU-70k 数据集和 ATS 采样器对视频异常理解领域有较好实用价值