Language-guided Open-world Video Anomaly Detection under Weak Supervision¶

会议: ICLR2026
arXiv: 2503.13160
代码: Kamino666/LaGoVAD-PreVAD
领域: video_understanding
关键词: Video Anomaly Detection, Open-world, Language-guided, Concept Drift, Weak Supervision

一句话总结¶

提出语言引导的开放世界视频异常检测范式 LaGoVAD，通过将异常定义建模为随机变量并以自然语言形式输入，从理论上规避概念漂移问题；同时构建了目前最大规模的视频异常数据集 PreVAD（35K 视频），在七个数据集上零样本 SOTA。

背景与动机¶

视频异常检测（VAD）旨在识别偏离预期模式的视频帧，广泛应用于智能监控等场景。现有方法存在以下核心局限：

闭集假设：传统弱监督方法（PEL、VadCLIP）假定异常定义在训练和测试阶段不变，只能检测训练集中出现过的异常模式。
开集方法的不足：开集/开放词汇/领域泛化方法虽能检测训练集外的新异常类别，但仍隐式假定异常定义固定，即一个模式的正常/异常标签不会改变。
概念漂移问题：现实中异常定义随环境和政策动态变化。例如"不戴口罩"在流感爆发时是异常，在平时则正常；"行人在道路上"在普通监控中正常，在高速公路场景中则异常。现有方法无法处理这种 \(P_{\text{train}}(Y|V) \neq P_{\text{test}}(Y|V)\) 的概念漂移。
数据集瓶颈：现有最大 VAD 数据集仅约 5K 视频，且领域覆盖有限，缺少多层级分类和异常描述标注。

核心问题¶

如何在开放世界场景下实现视频异常检测，使模型能够根据用户提供的自然语言动态调整异常定义，从根本上解决概念漂移问题？

方法详解¶

1. 语言引导的开放世界 VAD 范式¶

核心思想是将异常定义 \(Z\) 显式建模为随机变量，将预测条件从 \(\Phi: V \to Y\) 扩展为 \(\Phi: (V, Z) \to Y\)。

定义决定异常假设（Assumption 1）：异常标签 \(Y\) 完全由视频 \(V\) 和异常定义 \(Z\) 共同决定，即存在确定性函数 \(\mathcal{F}\) 使 \(y = \mathcal{F}(v, z)\)。
理论保证：在该假设下，\(P(Y|V,Z)\) 在任意域之间保持不变（Proposition 1），从而避免概念漂移。而当异常定义在不同域间发生偏移时，传统 \(P(Y|V)\) 的建模方式必然遭遇概念漂移（Proposition 2）。
训练目标：\(\theta^{\star} = \arg\min_{\theta} \mathbb{E}_{(v,z,y) \sim P(V,Z,Y)}[\mathcal{L}(\Phi(v,z;\theta), y)]\)

2. LaGoVAD 模型架构¶

模型输入为视频 \(v\) 和文本异常定义 \(z = \{z_0, z_1, \dots, z_{C-1}\}\)（类别名称或异常描述）：

特征编码：使用预训练 CLIP 图像编码器 + Transformer 时序编码器提取视频特征 \(v^t\)；CLIP 文本编码器提取文本特征 \(z^t\)。
特征融合：Transformer 融合模块 \(\mathcal{U}\) 将视觉和文本特征融合为 \(v^u, z^u\)。
双头预测：二分类检测头 \(\mathcal{H}^{\text{bin}}\) 输出异常分数 \(y^{\text{bin}} \in \mathbb{R}^{L \times 1}\)；多分类头 \(\mathcal{H}^{\text{mul}}\) 输出分类概率 \(y^{\text{mul}} \in \mathbb{R}^{L \times C}\)。
损失函数：\(\mathcal{L} = \mathcal{L}_{\text{MIL}} + \mathcal{L}_{\text{MIL-align}} + \mathcal{L}_{\text{dvs}} + \mathcal{L}_{\text{neg}}\)

3. 动态视频合成（Dynamic Video Synthesis）¶

解决现有数据中异常片段占比过高（网络视频偏差）的问题：

动态决定生成正常或异常视频，并指定片段数量（数量为 1 表示不合成）。
选择锚视频，从 k 近邻中随机选取语义相似视频拼接为长视频序列。
锚视频的位置被转换为二值伪标签 \(y^p\)，用于计算 \(\mathcal{L}_{\text{dvs}}\)。
语义检索所需的距离度量预计算，不增加训练时开销。

4. 带硬负样本挖掘的对比学习¶

增强正常帧与异常帧的区分度：

利用异常分数加权聚合帧级特征为视频级前景特征 \(\tilde{v}^{\text{pos}}\) 和背景特征 \(\tilde{v}^{\text{neg}}\)。
异常视频中的正常部分（背景特征）作为对应异常描述的硬负样本。
通过温度系数 \(\eta\) 调节硬负样本的选择强度。
计算视觉-文本双向对比损失 \(\mathcal{L}_{\text{neg}} = \mathcal{L}_{t \to v} + \mathcal{L}_{v \to t}\)。

5. PreVAD 数据集¶

通过可扩展的数据管理流水线构建：

数据来源：现有大规模视频-文本数据集检索 + 网络策划资源 + YouTube/交通摄像头正常监控视频。
数据清洗：自动去除片头片尾 → MLLM 生成描述 → VLM 验证一致性 → LLM 评估确认异常存在。
标注方式：人机混合标注，先标注类别标签，再以类别为约束由 MLLM 生成异常描述。
规模：35,279 个视频（11,979 异常 + 23,300 正常），总时长 209.5 小时。
分类体系：7 个一级类别（暴力、车辆事故、火灾、抢劫、日常事故、动物暴力、生产事故），35 个子类别。
异常描述：总词汇量 5,298 词，平均每条描述 22.9 词。

实验关键数据¶

零样本时序检测（Protocol 1, 七个数据集）¶

方法	UCF(AUC)	XD(AP)	MSAD(AUC)	UBN(AUC)	DoTA(AUC)	TAD(AUC)	LAD(AUC)
VadCLIP(UCF)	-	58.29	88.09	56.24	50.93	74.46	74.29
VadCLIP(XD)	80.16	-	88.48	57.41	49.00	83.56	74.46
LAVAD	80.28	62.01	-	-	-	-	-
LaGoVAD	81.12	74.25	90.41	58.07	62.60	89.56	78.91

概念漂移评估（Protocol 2）¶

方法	XD-drift@5 AP	MSAD-drift@5 AUC
Qwen2.5-VL-7B	20.6	63.1
LAVAD	34.8	72.2
VadCLIP	35.8	85.2
LaGoVAD	37.1	85.6

消融实验¶

移除 \(\mathcal{L}_{\text{dvs}}\)：平均检测性能从 76.42 降至 73.51
移除 \(\mathcal{L}_{\text{neg}}\)：从 76.42 降至 73.96
两者均移除：降至 71.31
移除语言引导：降至 73.84，且分类性能大幅下降（46.23 vs 52.57）
VadCLIP 在 PreVAD 上训练后相比 UCF-Crime 训练：检测提升 14%，分类提升 88%

亮点¶

范式创新：首次从理论上形式化 VAD 中的概念漂移问题，提出将异常定义作为显式变量联合建模的范式，并给出理论证明。
实用性强：用户可在推理时通过自然语言动态定义异常，实现灵活的开放世界部署。
数据集贡献：PreVAD 是目前最大最多样的 VAD 数据集，提供了可扩展的自动化数据管理流水线。
全面评估：设计了两种零样本评估协议，尤其 Protocol 2 专门评估概念漂移鲁棒性。
模型设计简洁：两个正则化策略（动态视频合成 + 对比学习）相互独立，可即插即用到更复杂架构。

局限性 / 可改进方向¶

文本定义的表达力：当前异常定义以类别名称或描述形式给出，对复杂的组合式异常定义（如"在特定时间段内的特定行为"）可能表达力不足。
正常视频的定义缺失：模型主要通过异常定义引导检测，当视频不属于任何给定异常定义时被视为正常，可能遗漏未被定义覆盖的异常。
弱监督瓶颈：训练仅使用视频级标签，缺乏帧级精细监督可能限制时序定位精度。
计算开销：虽然相比 LLM 方法更轻量，但 CLIP + Transformer 融合 + 动态合成的流水线在边缘设备上部署仍有挑战。
数据集偏差：PreVAD 主要来自网络视频，与真实监控场景（低分辨率、固定视角、光照变化）可能仍存在域差距。

与相关工作的对比¶

维度	传统方法(PEL/VadCLIP)	开集方法(OVVAD)	场景依赖方法(CMRL)	LLM方法(LAVAD/Qwen)	LaGoVAD
概念漂移	✗	✗	部分	部分	✓
用户自定义	✗	✗	✗	✓	✓
新类别检测	✗	✓	✗	✓	✓
计算效率	高	高	高	低	中
时序定位	✓	✓	✓	弱	✓

启发与关联¶

概念漂移的通用解法：将"定义"显式建模为输入变量以规避概念漂移的思路，可推广到其他任务如动作识别、目标检测中定义随场景变化的情况。
数据集构建范式：利用基础模型（MLLM + VLM + LLM）自动化数据清洗和标注的流水线值得借鉴，可大幅降低大规模数据集的构建成本。
与 Prompt Engineering 的对比：实验表明单纯的 prompt 工程无法在 LLM 上实现满意的 VAD 性能，说明任务特化的模型设计仍不可或缺。
动态视频合成思路：通过语义检索拼接视频来改变异常时长分布的方法，可用于其他时序检测任务中解决正负样本比例失衡问题。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次形式化 VAD 概念漂移并提出理论框架
实验充分度: ⭐⭐⭐⭐⭐ — 七数据集零样本 + 概念漂移专项评估 + 全面消融
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，结构完整，部分符号较密集
价值: ⭐⭐⭐⭐⭐ — 开放世界 VAD 新范式 + 最大规模数据集 + 代码开源