跳转至

Language-guided Open-world Video Anomaly Detection under Weak Supervision

会议: ICLR2026
arXiv: 2503.13160
代码: Kamino666/LaGoVAD-PreVAD
领域: video_understanding
关键词: Video Anomaly Detection, Open-world, Language-guided, Concept Drift, Weak Supervision

一句话总结

提出语言引导的开放世界视频异常检测范式 LaGoVAD,通过将异常定义建模为随机变量并以自然语言形式输入,从理论上规避概念漂移问题;同时构建了目前最大规模的视频异常数据集 PreVAD(35K 视频),在七个数据集上零样本 SOTA。

背景与动机

视频异常检测(VAD)旨在识别偏离预期模式的视频帧,广泛应用于智能监控等场景。现有方法存在以下核心局限:

  1. 闭集假设:传统弱监督方法(PEL、VadCLIP)假定异常定义在训练和测试阶段不变,只能检测训练集中出现过的异常模式。
  2. 开集方法的不足:开集/开放词汇/领域泛化方法虽能检测训练集外的新异常类别,但仍隐式假定异常定义固定,即一个模式的正常/异常标签不会改变。
  3. 概念漂移问题:现实中异常定义随环境和政策动态变化。例如"不戴口罩"在流感爆发时是异常,在平时则正常;"行人在道路上"在普通监控中正常,在高速公路场景中则异常。现有方法无法处理这种 \(P_{\text{train}}(Y|V) \neq P_{\text{test}}(Y|V)\) 的概念漂移。
  4. 数据集瓶颈:现有最大 VAD 数据集仅约 5K 视频,且领域覆盖有限,缺少多层级分类和异常描述标注。

核心问题

如何在开放世界场景下实现视频异常检测,使模型能够根据用户提供的自然语言动态调整异常定义,从根本上解决概念漂移问题?

方法详解

1. 语言引导的开放世界 VAD 范式

核心思想是将异常定义 \(Z\) 显式建模为随机变量,将预测条件从 \(\Phi: V \to Y\) 扩展为 \(\Phi: (V, Z) \to Y\)

  • 定义决定异常假设(Assumption 1):异常标签 \(Y\) 完全由视频 \(V\) 和异常定义 \(Z\) 共同决定,即存在确定性函数 \(\mathcal{F}\) 使 \(y = \mathcal{F}(v, z)\)
  • 理论保证:在该假设下,\(P(Y|V,Z)\) 在任意域之间保持不变(Proposition 1),从而避免概念漂移。而当异常定义在不同域间发生偏移时,传统 \(P(Y|V)\) 的建模方式必然遭遇概念漂移(Proposition 2)。
  • 训练目标\(\theta^{\star} = \arg\min_{\theta} \mathbb{E}_{(v,z,y) \sim P(V,Z,Y)}[\mathcal{L}(\Phi(v,z;\theta), y)]\)

2. LaGoVAD 模型架构

模型输入为视频 \(v\) 和文本异常定义 \(z = \{z_0, z_1, \dots, z_{C-1}\}\)(类别名称或异常描述):

  • 特征编码:使用预训练 CLIP 图像编码器 + Transformer 时序编码器提取视频特征 \(v^t\);CLIP 文本编码器提取文本特征 \(z^t\)
  • 特征融合:Transformer 融合模块 \(\mathcal{U}\) 将视觉和文本特征融合为 \(v^u, z^u\)
  • 双头预测:二分类检测头 \(\mathcal{H}^{\text{bin}}\) 输出异常分数 \(y^{\text{bin}} \in \mathbb{R}^{L \times 1}\);多分类头 \(\mathcal{H}^{\text{mul}}\) 输出分类概率 \(y^{\text{mul}} \in \mathbb{R}^{L \times C}\)
  • 损失函数\(\mathcal{L} = \mathcal{L}_{\text{MIL}} + \mathcal{L}_{\text{MIL-align}} + \mathcal{L}_{\text{dvs}} + \mathcal{L}_{\text{neg}}\)

3. 动态视频合成(Dynamic Video Synthesis)

解决现有数据中异常片段占比过高(网络视频偏差)的问题:

  • 动态决定生成正常或异常视频,并指定片段数量(数量为 1 表示不合成)。
  • 选择锚视频,从 k 近邻中随机选取语义相似视频拼接为长视频序列。
  • 锚视频的位置被转换为二值伪标签 \(y^p\),用于计算 \(\mathcal{L}_{\text{dvs}}\)
  • 语义检索所需的距离度量预计算,不增加训练时开销。

4. 带硬负样本挖掘的对比学习

增强正常帧与异常帧的区分度:

  • 利用异常分数加权聚合帧级特征为视频级前景特征 \(\tilde{v}^{\text{pos}}\) 和背景特征 \(\tilde{v}^{\text{neg}}\)
  • 异常视频中的正常部分(背景特征)作为对应异常描述的硬负样本。
  • 通过温度系数 \(\eta\) 调节硬负样本的选择强度。
  • 计算视觉-文本双向对比损失 \(\mathcal{L}_{\text{neg}} = \mathcal{L}_{t \to v} + \mathcal{L}_{v \to t}\)

5. PreVAD 数据集

通过可扩展的数据管理流水线构建:

  • 数据来源:现有大规模视频-文本数据集检索 + 网络策划资源 + YouTube/交通摄像头正常监控视频。
  • 数据清洗:自动去除片头片尾 → MLLM 生成描述 → VLM 验证一致性 → LLM 评估确认异常存在。
  • 标注方式:人机混合标注,先标注类别标签,再以类别为约束由 MLLM 生成异常描述。
  • 规模:35,279 个视频(11,979 异常 + 23,300 正常),总时长 209.5 小时。
  • 分类体系:7 个一级类别(暴力、车辆事故、火灾、抢劫、日常事故、动物暴力、生产事故),35 个子类别。
  • 异常描述:总词汇量 5,298 词,平均每条描述 22.9 词。

实验关键数据

零样本时序检测(Protocol 1, 七个数据集)

方法 UCF(AUC) XD(AP) MSAD(AUC) UBN(AUC) DoTA(AUC) TAD(AUC) LAD(AUC)
VadCLIP(UCF) - 58.29 88.09 56.24 50.93 74.46 74.29
VadCLIP(XD) 80.16 - 88.48 57.41 49.00 83.56 74.46
LAVAD 80.28 62.01 - - - - -
LaGoVAD 81.12 74.25 90.41 58.07 62.60 89.56 78.91

概念漂移评估(Protocol 2)

方法 XD-drift@5 AP MSAD-drift@5 AUC
Qwen2.5-VL-7B 20.6 63.1
LAVAD 34.8 72.2
VadCLIP 35.8 85.2
LaGoVAD 37.1 85.6

消融实验

  • 移除 \(\mathcal{L}_{\text{dvs}}\):平均检测性能从 76.42 降至 73.51
  • 移除 \(\mathcal{L}_{\text{neg}}\):从 76.42 降至 73.96
  • 两者均移除:降至 71.31
  • 移除语言引导:降至 73.84,且分类性能大幅下降(46.23 vs 52.57)
  • VadCLIP 在 PreVAD 上训练后相比 UCF-Crime 训练:检测提升 14%,分类提升 88%

亮点

  1. 范式创新:首次从理论上形式化 VAD 中的概念漂移问题,提出将异常定义作为显式变量联合建模的范式,并给出理论证明。
  2. 实用性强:用户可在推理时通过自然语言动态定义异常,实现灵活的开放世界部署。
  3. 数据集贡献:PreVAD 是目前最大最多样的 VAD 数据集,提供了可扩展的自动化数据管理流水线。
  4. 全面评估:设计了两种零样本评估协议,尤其 Protocol 2 专门评估概念漂移鲁棒性。
  5. 模型设计简洁:两个正则化策略(动态视频合成 + 对比学习)相互独立,可即插即用到更复杂架构。

局限性 / 可改进方向

  1. 文本定义的表达力:当前异常定义以类别名称或描述形式给出,对复杂的组合式异常定义(如"在特定时间段内的特定行为")可能表达力不足。
  2. 正常视频的定义缺失:模型主要通过异常定义引导检测,当视频不属于任何给定异常定义时被视为正常,可能遗漏未被定义覆盖的异常。
  3. 弱监督瓶颈:训练仅使用视频级标签,缺乏帧级精细监督可能限制时序定位精度。
  4. 计算开销:虽然相比 LLM 方法更轻量,但 CLIP + Transformer 融合 + 动态合成的流水线在边缘设备上部署仍有挑战。
  5. 数据集偏差:PreVAD 主要来自网络视频,与真实监控场景(低分辨率、固定视角、光照变化)可能仍存在域差距。

与相关工作的对比

维度 传统方法(PEL/VadCLIP) 开集方法(OVVAD) 场景依赖方法(CMRL) LLM方法(LAVAD/Qwen) LaGoVAD
概念漂移 部分 部分
用户自定义
新类别检测
计算效率
时序定位

启发与关联

  1. 概念漂移的通用解法:将"定义"显式建模为输入变量以规避概念漂移的思路,可推广到其他任务如动作识别、目标检测中定义随场景变化的情况。
  2. 数据集构建范式:利用基础模型(MLLM + VLM + LLM)自动化数据清洗和标注的流水线值得借鉴,可大幅降低大规模数据集的构建成本。
  3. 与 Prompt Engineering 的对比:实验表明单纯的 prompt 工程无法在 LLM 上实现满意的 VAD 性能,说明任务特化的模型设计仍不可或缺。
  4. 动态视频合成思路:通过语义检索拼接视频来改变异常时长分布的方法,可用于其他时序检测任务中解决正负样本比例失衡问题。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次形式化 VAD 概念漂移并提出理论框架
  • 实验充分度: ⭐⭐⭐⭐⭐ — 七数据集零样本 + 概念漂移专项评估 + 全面消融
  • 写作质量: ⭐⭐⭐⭐ — 理论推导清晰,结构完整,部分符号较密集
  • 价值: ⭐⭐⭐⭐⭐ — 开放世界 VAD 新范式 + 最大规模数据集 + 代码开源