跳转至

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

会议: CVPR 2026
arXiv: 2603.00550
代码: 无
领域: others / 视频异常检测
关键词: 弱监督视频异常检测, 连通分量, 意图推理, CLIP, 多实例学习

一句话总结

提出 LAS-VAD 框架,通过异常连通分量机制(ACC)将视频帧划分为语义一致的组来生成伪标签弥补帧级标注缺失,并通过意图感知机制(IAM)利用位置-速度-加速度特征区分外观相似但意图不同的正常/异常行为,在 XD-Violence 上达 89.96% AP (I3D)。

研究背景与动机

领域现状:弱监督视频异常检测(WS-VAD)仅使用视频级标注,通过多实例学习(MIL)识别异常时间区间。主流方法使用预训练特征提取+分类器管道。

现有痛点: - 语义信息不足:缺乏帧级标注导致模型难以学到异常的语义表示,只能通过 MIL 的 top-K 策略间接学习 - 行为区分模糊:正常和异常行为外观高度相似(如"拿东西" vs "偷东西"),仅靠外观特征无法区分

核心矛盾:帧级标注缺失 ↔ 需要帧级语义理解;外观相似 ↔ 意图不同

切入角度: - 语义问题:利用帧间相似性构建连通分量图,同组帧共享语义 → 伪标签 - 意图问题:异常行为往往速度/加速度异常(偷东西比拿东西更快),用运动学特征推理意图

核心 idea:学习异常语义 = 空间语义分组(ACC)+ 运动意图推理(IAM)+ 异常属性增强

方法详解

整体框架

LAS-VAD 的核心管道: 1. 用 CLIP 视觉编码器提取帧级特征 \(X_\text{video} \in \mathbb{R}^{T \times D}\) 2. 局部 Transformer + GCN 建模时序依赖,得到增强特征 \(X_f\) 3. 文本编码器提取异常类别特征 \(X_\text{lang}\),LLM 生成异常属性描述特征 \(X_\text{aux}\) 4. ACC 模块生成帧级伪标签引导学习 5. IAM 模块通过运动学特征区分意图 6. 多分支预测融合 \(p^f = \frac{1}{3}(q^m + q^a + q^l)\)

关键设计

  1. 异常连通分量机制 (ACC):

    • 功能:将视频帧划分为语义一致的非重叠组,生成帧级伪标签
    • 核心思路:
      • 计算帧间视觉相似度 \(\mathcal{A}_v = \frac{X_f \cdot X_f^T}{\|X_f\| \cdot \|X_f\|}\)
      • 用跨模态语义相似度校正偏差:\(\hat{\mathcal{A}}_w[i,j] = \mathcal{A}_v[i,j] \cdot (1 + \eta \cdot \max_c \min(q^l[i,c], q^l[j,c]))\)
      • 二值化 \(\mathcal{A} = (\hat{\mathcal{A}} > \tau)\) 构建邻接矩阵
      • DFS 找连通分量 \(B_1, B_2, ..., B_r\),组内帧共享语义标签
    • 设计动机:绕过帧级标注缺失的问题——不需要知道每帧的标签,只需知道哪些帧属于同一语义组
  2. 意图感知机制 (IAM):

    • 功能:通过运动学特征推理行为意图,区分外观相似但意图不同的行为
    • 核心思路:
      • \(X_f\) 提取位置特征 \(X_p\),差分得速度 \(X_v\) 和加速度 \(X_a\)
      • 门控机制:\(X_v = \text{Sigmoid}(\text{Conv}(X_v^\text{diff})) \times X_v^\text{diff}\)
      • 拼接得意图特征 \(X_\text{int} \in \mathbb{R}^{T \times D}\)
      • 建立意图原型 \(Z \in \mathbb{R}^{(C+1) \times D}\),动量更新
      • 跨意图对比学习:挖掘同类中最不相似的正样本和异类中最相似的负样本,用 infoNCE 约束: $\(\mathcal{L}_\text{cst} = -\frac{1}{T}\sum_{t=1}^T \log \frac{\exp(X_\text{int}^t \cdot S_\text{pos}^t)}{\sum_{i=1}^M \exp(X_\text{int}^t \cdot S_\text{neg}^t)}\)$
    • 设计动机:偷窃 vs 拿取,区别在"抓取速度"—速度/加速度特征自然编码这种意图差异
  3. 异常属性增强:

    • 功能:利用 LLM 生成每个异常类别的属性描述(如"爆炸→火焰、浓烟"),提取特征辅助检测
    • 核心思路:\(X_\text{text} = [X_\text{lang}; X_\text{aux}]\),与视频特征计算跨模态余弦相似度得到 \(q^l\)
    • 设计动机:异常发生伴随特征性属性,文本描述提供额外语义引导

损失函数 / 训练策略

\[\mathcal{L}_\text{all} = \mathcal{L}_\text{ags} + \mathcal{L}_\text{fg} + \mathcal{L}_\text{aux} + \lambda \mathcal{L}_\text{reg}\]
  • \(\mathcal{L}_\text{ags}\):二元交叉熵(粗粒度异常/正常)
  • \(\mathcal{L}_\text{fg}\):多分类交叉熵(细粒度异常类别)
  • \(\mathcal{L}_\text{aux}\):ACC 伪标签 L1 损失
  • \(\mathcal{L}_\text{reg}\):粗/细粒度预测一致性正则

实验关键数据

主实验

数据集 特征 指标 LAS-VAD 之前SOTA 提升
XD-Violence I3D AP(%) 89.96 LEC-VAD 88.47 +1.49
XD-Violence CLIP AP(%) 87.92 LEC-VAD 86.56 +1.36
UCF-Crime I3D AUC(%) 91.05 π-VAD 90.33 +0.72
UCF-Crime CLIP AUC(%) 90.86 LEC-VAD 89.97 +0.89

细粒度 mAP (XD-Violence, avg IoU 0.1-0.5):

方法 0.1 0.2 0.3 0.4 0.5 AVG
LEC-VAD 19.65 17.17 14.37 9.45 7.18 13.56
LAS-VAD 22.07 19.96 16.18 11.24 8.64 15.62

消融实验

ATT ACC IAM mAP AVG 说明
24.24 基线
26.50 属性增强有效
29.78 ACC 贡献最大(+3.28)
29.98 IAM 进一步提升

关键发现

  • ACC(连通分量)是贡献最大的模块,伪标签为帧级学习提供了关键监督
  • IAM 的意图推理在外观相似场景中效果显著,但整体增益相对较小(+0.20)
  • 异常属性描述(LLM 生成)提供了有意义的语义补充(+2.26)
  • 在两个数据集、三种特征提取器(C3D/I3D/CLIP)上均取得 SOTA

亮点与洞察

  • 连通分量做帧分组:把图论中的连通分量概念巧妙应用于视频帧语义分组,思路简洁有效。关键在文本语义校正步骤——纯视觉相似度存在偏差,跨模态校正使分组更准确。
  • 位置-速度-加速度的意图编码:从物理学的运动学概念出发设计特征,直觉上很合理——偷窃动作确实比正常拿取更快。门控机制过滤噪声也是好设计。
  • LLM 属性描述作为文本先验:用 GPT-4 生成异常属性描述的做法简单有效,无需手动设计提示。

局限与展望

  • ACC 的阈值 \(\tau\) 需要手动设定(0.9),对不同视频类型敏感
  • IAM 的位置/速度/加速度特征提取比较简单(全连接+差分),可能对复杂运动模式建模不足
  • 依赖 GPT-4 生成属性描述,引入外部模型依赖
  • 意图原型的动量更新机制在训练初期可能不稳定
  • 未在更大规模数据集上验证(如 Kinetics-700 的异常子集)

评分

  • 新颖性: ⭐⭐⭐⭐ ACC 和 IAM 的组合思路有新意,连通分量做帧分组是亮点
  • 实验充分度: ⭐⭐⭐⭐ 两数据集多特征全面对比,消融完整
  • 写作质量: ⭐⭐⭐ 动机描述偏冗长,公式符号较多
  • 价值: ⭐⭐⭐⭐ 弱监督 VAD 领域的稳定进步

相关论文