Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning¶
会议: CVPR 2026
arXiv: 2603.00550
代码: 无
领域: others / 视频异常检测
关键词: 弱监督视频异常检测, 连通分量, 意图推理, CLIP, 多实例学习
一句话总结¶
提出 LAS-VAD 框架,通过异常连通分量机制(ACC)将视频帧划分为语义一致的组来生成伪标签弥补帧级标注缺失,并通过意图感知机制(IAM)利用位置-速度-加速度特征区分外观相似但意图不同的正常/异常行为,在 XD-Violence 上达 89.96% AP (I3D)。
研究背景与动机¶
领域现状:弱监督视频异常检测(WS-VAD)仅使用视频级标注,通过多实例学习(MIL)识别异常时间区间。主流方法使用预训练特征提取+分类器管道。
现有痛点: - 语义信息不足:缺乏帧级标注导致模型难以学到异常的语义表示,只能通过 MIL 的 top-K 策略间接学习 - 行为区分模糊:正常和异常行为外观高度相似(如"拿东西" vs "偷东西"),仅靠外观特征无法区分
核心矛盾:帧级标注缺失 ↔ 需要帧级语义理解;外观相似 ↔ 意图不同
切入角度: - 语义问题:利用帧间相似性构建连通分量图,同组帧共享语义 → 伪标签 - 意图问题:异常行为往往速度/加速度异常(偷东西比拿东西更快),用运动学特征推理意图
核心 idea:学习异常语义 = 空间语义分组(ACC)+ 运动意图推理(IAM)+ 异常属性增强
方法详解¶
整体框架¶
LAS-VAD 的核心管道: 1. 用 CLIP 视觉编码器提取帧级特征 \(X_\text{video} \in \mathbb{R}^{T \times D}\) 2. 局部 Transformer + GCN 建模时序依赖,得到增强特征 \(X_f\) 3. 文本编码器提取异常类别特征 \(X_\text{lang}\),LLM 生成异常属性描述特征 \(X_\text{aux}\) 4. ACC 模块生成帧级伪标签引导学习 5. IAM 模块通过运动学特征区分意图 6. 多分支预测融合 \(p^f = \frac{1}{3}(q^m + q^a + q^l)\)
关键设计¶
-
异常连通分量机制 (ACC):
- 功能:将视频帧划分为语义一致的非重叠组,生成帧级伪标签
- 核心思路:
- 计算帧间视觉相似度 \(\mathcal{A}_v = \frac{X_f \cdot X_f^T}{\|X_f\| \cdot \|X_f\|}\)
- 用跨模态语义相似度校正偏差:\(\hat{\mathcal{A}}_w[i,j] = \mathcal{A}_v[i,j] \cdot (1 + \eta \cdot \max_c \min(q^l[i,c], q^l[j,c]))\)
- 二值化 \(\mathcal{A} = (\hat{\mathcal{A}} > \tau)\) 构建邻接矩阵
- DFS 找连通分量 \(B_1, B_2, ..., B_r\),组内帧共享语义标签
- 设计动机:绕过帧级标注缺失的问题——不需要知道每帧的标签,只需知道哪些帧属于同一语义组
-
意图感知机制 (IAM):
- 功能:通过运动学特征推理行为意图,区分外观相似但意图不同的行为
- 核心思路:
- 从 \(X_f\) 提取位置特征 \(X_p\),差分得速度 \(X_v\) 和加速度 \(X_a\)
- 门控机制:\(X_v = \text{Sigmoid}(\text{Conv}(X_v^\text{diff})) \times X_v^\text{diff}\)
- 拼接得意图特征 \(X_\text{int} \in \mathbb{R}^{T \times D}\)
- 建立意图原型 \(Z \in \mathbb{R}^{(C+1) \times D}\),动量更新
- 跨意图对比学习:挖掘同类中最不相似的正样本和异类中最相似的负样本,用 infoNCE 约束: $\(\mathcal{L}_\text{cst} = -\frac{1}{T}\sum_{t=1}^T \log \frac{\exp(X_\text{int}^t \cdot S_\text{pos}^t)}{\sum_{i=1}^M \exp(X_\text{int}^t \cdot S_\text{neg}^t)}\)$
- 设计动机:偷窃 vs 拿取,区别在"抓取速度"—速度/加速度特征自然编码这种意图差异
-
异常属性增强:
- 功能:利用 LLM 生成每个异常类别的属性描述(如"爆炸→火焰、浓烟"),提取特征辅助检测
- 核心思路:\(X_\text{text} = [X_\text{lang}; X_\text{aux}]\),与视频特征计算跨模态余弦相似度得到 \(q^l\)
- 设计动机:异常发生伴随特征性属性,文本描述提供额外语义引导
损失函数 / 训练策略¶
- \(\mathcal{L}_\text{ags}\):二元交叉熵(粗粒度异常/正常)
- \(\mathcal{L}_\text{fg}\):多分类交叉熵(细粒度异常类别)
- \(\mathcal{L}_\text{aux}\):ACC 伪标签 L1 损失
- \(\mathcal{L}_\text{reg}\):粗/细粒度预测一致性正则
实验关键数据¶
主实验¶
| 数据集 | 特征 | 指标 | LAS-VAD | 之前SOTA | 提升 |
|---|---|---|---|---|---|
| XD-Violence | I3D | AP(%) | 89.96 | LEC-VAD 88.47 | +1.49 |
| XD-Violence | CLIP | AP(%) | 87.92 | LEC-VAD 86.56 | +1.36 |
| UCF-Crime | I3D | AUC(%) | 91.05 | π-VAD 90.33 | +0.72 |
| UCF-Crime | CLIP | AUC(%) | 90.86 | LEC-VAD 89.97 | +0.89 |
细粒度 mAP (XD-Violence, avg IoU 0.1-0.5):
| 方法 | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | AVG |
|---|---|---|---|---|---|---|
| LEC-VAD | 19.65 | 17.17 | 14.37 | 9.45 | 7.18 | 13.56 |
| LAS-VAD | 22.07 | 19.96 | 16.18 | 11.24 | 8.64 | 15.62 |
消融实验¶
| ATT | ACC | IAM | mAP AVG | 说明 |
|---|---|---|---|---|
| ✗ | ✗ | ✗ | 24.24 | 基线 |
| ✓ | ✗ | ✗ | 26.50 | 属性增强有效 |
| ✓ | ✓ | ✗ | 29.78 | ACC 贡献最大(+3.28) |
| ✓ | ✓ | ✓ | 29.98 | IAM 进一步提升 |
关键发现¶
- ACC(连通分量)是贡献最大的模块,伪标签为帧级学习提供了关键监督
- IAM 的意图推理在外观相似场景中效果显著,但整体增益相对较小(+0.20)
- 异常属性描述(LLM 生成)提供了有意义的语义补充(+2.26)
- 在两个数据集、三种特征提取器(C3D/I3D/CLIP)上均取得 SOTA
亮点与洞察¶
- 连通分量做帧分组:把图论中的连通分量概念巧妙应用于视频帧语义分组,思路简洁有效。关键在文本语义校正步骤——纯视觉相似度存在偏差,跨模态校正使分组更准确。
- 位置-速度-加速度的意图编码:从物理学的运动学概念出发设计特征,直觉上很合理——偷窃动作确实比正常拿取更快。门控机制过滤噪声也是好设计。
- LLM 属性描述作为文本先验:用 GPT-4 生成异常属性描述的做法简单有效,无需手动设计提示。
局限与展望¶
- ACC 的阈值 \(\tau\) 需要手动设定(0.9),对不同视频类型敏感
- IAM 的位置/速度/加速度特征提取比较简单(全连接+差分),可能对复杂运动模式建模不足
- 依赖 GPT-4 生成属性描述,引入外部模型依赖
- 意图原型的动量更新机制在训练初期可能不稳定
- 未在更大规模数据集上验证(如 Kinetics-700 的异常子集)
评分¶
- 新颖性: ⭐⭐⭐⭐ ACC 和 IAM 的组合思路有新意,连通分量做帧分组是亮点
- 实验充分度: ⭐⭐⭐⭐ 两数据集多特征全面对比,消融完整
- 写作质量: ⭐⭐⭐ 动机描述偏冗长,公式符号较多
- 价值: ⭐⭐⭐⭐ 弱监督 VAD 领域的稳定进步
相关论文¶
- [AAAI 2026] RefineVAD: Semantic-Guided Feature Recalibration for Weakly Supervised Video Anomaly Detection
- [ICLR 2026] Towards Anomaly-Aware Pre-Training and Fine-Tuning for Graph Anomaly Detection
- [CVPR 2026] Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score
- [NeurIPS 2025] Normal-Abnormal Guided Generalist Anomaly Detection
- [CVPR 2026] Enhancing Out-of-Distribution Detection with Extended Logit Normalization