Language-guided Open-world Video Anomaly Detection under Weak Supervision¶
会议: ICLR2026
arXiv: 2503.13160
代码: Kamino666/LaGoVAD-PreVAD
领域: video_understanding
关键词: Video Anomaly Detection, Open-world, Language-guided, Concept Drift, Weak Supervision
一句话总结¶
提出语言引导的开放世界视频异常检测范式 LaGoVAD,通过将异常定义建模为随机变量并以自然语言形式输入,从理论上规避概念漂移问题;同时构建了目前最大规模的视频异常数据集 PreVAD(35K 视频),在七个数据集上零样本 SOTA。
背景与动机¶
视频异常检测(VAD)旨在识别偏离预期模式的视频帧,广泛应用于智能监控等场景。现有方法存在以下核心局限:
- 闭集假设:传统弱监督方法(PEL、VadCLIP)假定异常定义在训练和测试阶段不变,只能检测训练集中出现过的异常模式。
- 开集方法的不足:开集/开放词汇/领域泛化方法虽能检测训练集外的新异常类别,但仍隐式假定异常定义固定,即一个模式的正常/异常标签不会改变。
- 概念漂移问题:现实中异常定义随环境和政策动态变化。例如"不戴口罩"在流感爆发时是异常,在平时则正常;"行人在道路上"在普通监控中正常,在高速公路场景中则异常。现有方法无法处理这种 \(P_{\text{train}}(Y|V) \neq P_{\text{test}}(Y|V)\) 的概念漂移。
- 数据集瓶颈:现有最大 VAD 数据集仅约 5K 视频,且领域覆盖有限,缺少多层级分类和异常描述标注。
核心问题¶
如何在开放世界场景下实现视频异常检测,使模型能够根据用户提供的自然语言动态调整异常定义,从根本上解决概念漂移问题?
方法详解¶
1. 语言引导的开放世界 VAD 范式¶
核心思想是将异常定义 \(Z\) 显式建模为随机变量,将预测条件从 \(\Phi: V \to Y\) 扩展为 \(\Phi: (V, Z) \to Y\)。
- 定义决定异常假设(Assumption 1):异常标签 \(Y\) 完全由视频 \(V\) 和异常定义 \(Z\) 共同决定,即存在确定性函数 \(\mathcal{F}\) 使 \(y = \mathcal{F}(v, z)\)。
- 理论保证:在该假设下,\(P(Y|V,Z)\) 在任意域之间保持不变(Proposition 1),从而避免概念漂移。而当异常定义在不同域间发生偏移时,传统 \(P(Y|V)\) 的建模方式必然遭遇概念漂移(Proposition 2)。
- 训练目标:\(\theta^{\star} = \arg\min_{\theta} \mathbb{E}_{(v,z,y) \sim P(V,Z,Y)}[\mathcal{L}(\Phi(v,z;\theta), y)]\)
2. LaGoVAD 模型架构¶
模型输入为视频 \(v\) 和文本异常定义 \(z = \{z_0, z_1, \dots, z_{C-1}\}\)(类别名称或异常描述):
- 特征编码:使用预训练 CLIP 图像编码器 + Transformer 时序编码器提取视频特征 \(v^t\);CLIP 文本编码器提取文本特征 \(z^t\)。
- 特征融合:Transformer 融合模块 \(\mathcal{U}\) 将视觉和文本特征融合为 \(v^u, z^u\)。
- 双头预测:二分类检测头 \(\mathcal{H}^{\text{bin}}\) 输出异常分数 \(y^{\text{bin}} \in \mathbb{R}^{L \times 1}\);多分类头 \(\mathcal{H}^{\text{mul}}\) 输出分类概率 \(y^{\text{mul}} \in \mathbb{R}^{L \times C}\)。
- 损失函数:\(\mathcal{L} = \mathcal{L}_{\text{MIL}} + \mathcal{L}_{\text{MIL-align}} + \mathcal{L}_{\text{dvs}} + \mathcal{L}_{\text{neg}}\)
3. 动态视频合成(Dynamic Video Synthesis)¶
解决现有数据中异常片段占比过高(网络视频偏差)的问题:
- 动态决定生成正常或异常视频,并指定片段数量(数量为 1 表示不合成)。
- 选择锚视频,从 k 近邻中随机选取语义相似视频拼接为长视频序列。
- 锚视频的位置被转换为二值伪标签 \(y^p\),用于计算 \(\mathcal{L}_{\text{dvs}}\)。
- 语义检索所需的距离度量预计算,不增加训练时开销。
4. 带硬负样本挖掘的对比学习¶
增强正常帧与异常帧的区分度:
- 利用异常分数加权聚合帧级特征为视频级前景特征 \(\tilde{v}^{\text{pos}}\) 和背景特征 \(\tilde{v}^{\text{neg}}\)。
- 异常视频中的正常部分(背景特征)作为对应异常描述的硬负样本。
- 通过温度系数 \(\eta\) 调节硬负样本的选择强度。
- 计算视觉-文本双向对比损失 \(\mathcal{L}_{\text{neg}} = \mathcal{L}_{t \to v} + \mathcal{L}_{v \to t}\)。
5. PreVAD 数据集¶
通过可扩展的数据管理流水线构建:
- 数据来源:现有大规模视频-文本数据集检索 + 网络策划资源 + YouTube/交通摄像头正常监控视频。
- 数据清洗:自动去除片头片尾 → MLLM 生成描述 → VLM 验证一致性 → LLM 评估确认异常存在。
- 标注方式:人机混合标注,先标注类别标签,再以类别为约束由 MLLM 生成异常描述。
- 规模:35,279 个视频(11,979 异常 + 23,300 正常),总时长 209.5 小时。
- 分类体系:7 个一级类别(暴力、车辆事故、火灾、抢劫、日常事故、动物暴力、生产事故),35 个子类别。
- 异常描述:总词汇量 5,298 词,平均每条描述 22.9 词。
实验关键数据¶
零样本时序检测(Protocol 1, 七个数据集)¶
| 方法 | UCF(AUC) | XD(AP) | MSAD(AUC) | UBN(AUC) | DoTA(AUC) | TAD(AUC) | LAD(AUC) |
|---|---|---|---|---|---|---|---|
| VadCLIP(UCF) | - | 58.29 | 88.09 | 56.24 | 50.93 | 74.46 | 74.29 |
| VadCLIP(XD) | 80.16 | - | 88.48 | 57.41 | 49.00 | 83.56 | 74.46 |
| LAVAD | 80.28 | 62.01 | - | - | - | - | - |
| LaGoVAD | 81.12 | 74.25 | 90.41 | 58.07 | 62.60 | 89.56 | 78.91 |
概念漂移评估(Protocol 2)¶
| 方法 | XD-drift@5 AP | MSAD-drift@5 AUC |
|---|---|---|
| Qwen2.5-VL-7B | 20.6 | 63.1 |
| LAVAD | 34.8 | 72.2 |
| VadCLIP | 35.8 | 85.2 |
| LaGoVAD | 37.1 | 85.6 |
消融实验¶
- 移除 \(\mathcal{L}_{\text{dvs}}\):平均检测性能从 76.42 降至 73.51
- 移除 \(\mathcal{L}_{\text{neg}}\):从 76.42 降至 73.96
- 两者均移除:降至 71.31
- 移除语言引导:降至 73.84,且分类性能大幅下降(46.23 vs 52.57)
- VadCLIP 在 PreVAD 上训练后相比 UCF-Crime 训练:检测提升 14%,分类提升 88%
亮点¶
- 范式创新:首次从理论上形式化 VAD 中的概念漂移问题,提出将异常定义作为显式变量联合建模的范式,并给出理论证明。
- 实用性强:用户可在推理时通过自然语言动态定义异常,实现灵活的开放世界部署。
- 数据集贡献:PreVAD 是目前最大最多样的 VAD 数据集,提供了可扩展的自动化数据管理流水线。
- 全面评估:设计了两种零样本评估协议,尤其 Protocol 2 专门评估概念漂移鲁棒性。
- 模型设计简洁:两个正则化策略(动态视频合成 + 对比学习)相互独立,可即插即用到更复杂架构。
局限性 / 可改进方向¶
- 文本定义的表达力:当前异常定义以类别名称或描述形式给出,对复杂的组合式异常定义(如"在特定时间段内的特定行为")可能表达力不足。
- 正常视频的定义缺失:模型主要通过异常定义引导检测,当视频不属于任何给定异常定义时被视为正常,可能遗漏未被定义覆盖的异常。
- 弱监督瓶颈:训练仅使用视频级标签,缺乏帧级精细监督可能限制时序定位精度。
- 计算开销:虽然相比 LLM 方法更轻量,但 CLIP + Transformer 融合 + 动态合成的流水线在边缘设备上部署仍有挑战。
- 数据集偏差:PreVAD 主要来自网络视频,与真实监控场景(低分辨率、固定视角、光照变化)可能仍存在域差距。
与相关工作的对比¶
| 维度 | 传统方法(PEL/VadCLIP) | 开集方法(OVVAD) | 场景依赖方法(CMRL) | LLM方法(LAVAD/Qwen) | LaGoVAD |
|---|---|---|---|---|---|
| 概念漂移 | ✗ | ✗ | 部分 | 部分 | ✓ |
| 用户自定义 | ✗ | ✗ | ✗ | ✓ | ✓ |
| 新类别检测 | ✗ | ✓ | ✗ | ✓ | ✓ |
| 计算效率 | 高 | 高 | 高 | 低 | 中 |
| 时序定位 | ✓ | ✓ | ✓ | 弱 | ✓ |
启发与关联¶
- 概念漂移的通用解法:将"定义"显式建模为输入变量以规避概念漂移的思路,可推广到其他任务如动作识别、目标检测中定义随场景变化的情况。
- 数据集构建范式:利用基础模型(MLLM + VLM + LLM)自动化数据清洗和标注的流水线值得借鉴,可大幅降低大规模数据集的构建成本。
- 与 Prompt Engineering 的对比:实验表明单纯的 prompt 工程无法在 LLM 上实现满意的 VAD 性能,说明任务特化的模型设计仍不可或缺。
- 动态视频合成思路:通过语义检索拼接视频来改变异常时长分布的方法,可用于其他时序检测任务中解决正负样本比例失衡问题。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次形式化 VAD 概念漂移并提出理论框架
- 实验充分度: ⭐⭐⭐⭐⭐ — 七数据集零样本 + 概念漂移专项评估 + 全面消融
- 写作质量: ⭐⭐⭐⭐ — 理论推导清晰,结构完整,部分符号较密集
- 价值: ⭐⭐⭐⭐⭐ — 开放世界 VAD 新范式 + 最大规模数据集 + 代码开源