Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning¶

会议: CVPR 2026
arXiv: 2603.00550
代码: 无
领域: others / 视频异常检测
关键词: 弱监督视频异常检测, 连通分量, 意图推理, CLIP, 多实例学习

一句话总结¶

提出 LAS-VAD 框架，通过异常连通分量机制（ACC）将视频帧划分为语义一致的组来生成伪标签弥补帧级标注缺失，并通过意图感知机制（IAM）利用位置-速度-加速度特征区分外观相似但意图不同的正常/异常行为，在 XD-Violence 上达 89.96% AP (I3D)。

研究背景与动机¶

领域现状：弱监督视频异常检测（WS-VAD）仅使用视频级标注，通过多实例学习（MIL）识别异常时间区间。主流方法使用预训练特征提取+分类器管道。

现有痛点： - 语义信息不足：缺乏帧级标注导致模型难以学到异常的语义表示，只能通过 MIL 的 top-K 策略间接学习 - 行为区分模糊：正常和异常行为外观高度相似（如"拿东西" vs "偷东西"），仅靠外观特征无法区分

核心矛盾：帧级标注缺失 ↔ 需要帧级语义理解；外观相似 ↔ 意图不同

切入角度： - 语义问题：利用帧间相似性构建连通分量图，同组帧共享语义 → 伪标签 - 意图问题：异常行为往往速度/加速度异常（偷东西比拿东西更快），用运动学特征推理意图

核心 idea：学习异常语义 = 空间语义分组（ACC）+ 运动意图推理（IAM）+ 异常属性增强

方法详解¶

整体框架¶

LAS-VAD 的核心管道： 1. 用 CLIP 视觉编码器提取帧级特征 $X_\text{video} \in \mathbb{R}^{T \times D}$ 2. 局部 Transformer + GCN 建模时序依赖，得到增强特征 $X_f$ 3. 文本编码器提取异常类别特征 $X_\text{lang}$，LLM 生成异常属性描述特征 $X_\text{aux}$ 4. ACC 模块生成帧级伪标签引导学习 5. IAM 模块通过运动学特征区分意图 6. 多分支预测融合 $p^f = \frac{1}{3}(q^m + q^a + q^l)$

关键设计¶

异常连通分量机制 (ACC):
- 功能：将视频帧划分为语义一致的非重叠组，生成帧级伪标签
- 核心思路：
  - 计算帧间视觉相似度 $\mathcal{A}_v = \frac{X_f \cdot X_f^T}{\|X_f\| \cdot \|X_f\|}$
  - 用跨模态语义相似度校正偏差：$\hat{\mathcal{A}}_w[i,j] = \mathcal{A}_v[i,j] \cdot (1 + \eta \cdot \max_c \min(q^l[i,c], q^l[j,c]))$
  - 二值化 $\mathcal{A} = (\hat{\mathcal{A}} > \tau)$ 构建邻接矩阵
  - DFS 找连通分量 $B_1, B_2, ..., B_r$，组内帧共享语义标签
- 设计动机：绕过帧级标注缺失的问题——不需要知道每帧的标签，只需知道哪些帧属于同一语义组
意图感知机制 (IAM):
- 功能：通过运动学特征推理行为意图，区分外观相似但意图不同的行为
- 核心思路：
  - 从 $X_f$ 提取位置特征 $X_p$，差分得速度 $X_v$ 和加速度 $X_a$
  - 门控机制：$X_v = \text{Sigmoid}(\text{Conv}(X_v^\text{diff})) \times X_v^\text{diff}$
  - 拼接得意图特征 $X_\text{int} \in \mathbb{R}^{T \times D}$
  - 建立意图原型 $Z \in \mathbb{R}^{(C+1) \times D}$，动量更新
  - 跨意图对比学习：挖掘同类中最不相似的正样本和异类中最相似的负样本，用 infoNCE 约束： $$\mathcal{L}_\text{cst} = -\frac{1}{T}\sum_{t=1}^T \log \frac{\exp(X_\text{int}^t \cdot S_\text{pos}^t)}{\sum_{i=1}^M \exp(X_\text{int}^t \cdot S_\text{neg}^t)}$$
- 设计动机：偷窃 vs 拿取，区别在"抓取速度"—速度/加速度特征自然编码这种意图差异
异常属性增强:
- 功能：利用 LLM 生成每个异常类别的属性描述（如"爆炸→火焰、浓烟"），提取特征辅助检测
- 核心思路：$X_\text{text} = [X_\text{lang}; X_\text{aux}]$，与视频特征计算跨模态余弦相似度得到 $q^l$
- 设计动机：异常发生伴随特征性属性，文本描述提供额外语义引导

损失函数 / 训练策略¶

\[\mathcal{L}_\text{all} = \mathcal{L}_\text{ags} + \mathcal{L}_\text{fg} + \mathcal{L}_\text{aux} + \lambda \mathcal{L}_\text{reg}\]

$\mathcal{L}_\text{ags}$：二元交叉熵（粗粒度异常/正常）
$\mathcal{L}_\text{fg}$：多分类交叉熵（细粒度异常类别）
$\mathcal{L}_\text{aux}$：ACC 伪标签 L1 损失
$\mathcal{L}_\text{reg}$：粗/细粒度预测一致性正则

实验关键数据¶

主实验¶

数据集	特征	指标	LAS-VAD	之前SOTA	提升
XD-Violence	I3D	AP(%)	89.96	LEC-VAD 88.47	+1.49
XD-Violence	CLIP	AP(%)	87.92	LEC-VAD 86.56	+1.36
UCF-Crime	I3D	AUC(%)	91.05	π-VAD 90.33	+0.72
UCF-Crime	CLIP	AUC(%)	90.86	LEC-VAD 89.97	+0.89

细粒度 mAP (XD-Violence, avg IoU 0.1-0.5):

方法	0.1	0.2	0.3	0.4	0.5	AVG
LEC-VAD	19.65	17.17	14.37	9.45	7.18	13.56
LAS-VAD	22.07	19.96	16.18	11.24	8.64	15.62

消融实验¶

ATT	ACC	IAM	mAP AVG	说明
✗	✗	✗	24.24	基线
✓	✗	✗	26.50	属性增强有效
✓	✓	✗	29.78	ACC 贡献最大（+3.28）
✓	✓	✓	29.98	IAM 进一步提升

关键发现¶

ACC（连通分量）是贡献最大的模块，伪标签为帧级学习提供了关键监督
IAM 的意图推理在外观相似场景中效果显著，但整体增益相对较小（+0.20）
异常属性描述（LLM 生成）提供了有意义的语义补充（+2.26）
在两个数据集、三种特征提取器（C3D/I3D/CLIP）上均取得 SOTA

亮点与洞察¶

连通分量做帧分组：把图论中的连通分量概念巧妙应用于视频帧语义分组，思路简洁有效。关键在文本语义校正步骤——纯视觉相似度存在偏差，跨模态校正使分组更准确。
位置-速度-加速度的意图编码：从物理学的运动学概念出发设计特征，直觉上很合理——偷窃动作确实比正常拿取更快。门控机制过滤噪声也是好设计。
LLM 属性描述作为文本先验：用 GPT-4 生成异常属性描述的做法简单有效，无需手动设计提示。

局限与展望¶

ACC 的阈值 $\tau$ 需要手动设定（0.9），对不同视频类型敏感
IAM 的位置/速度/加速度特征提取比较简单（全连接+差分），可能对复杂运动模式建模不足
依赖 GPT-4 生成属性描述，引入外部模型依赖
意图原型的动量更新机制在训练初期可能不稳定
未在更大规模数据集上验证（如 Kinetics-700 的异常子集）

评分¶

新颖性: ⭐⭐⭐⭐ ACC 和 IAM 的组合思路有新意，连通分量做帧分组是亮点
实验充分度: ⭐⭐⭐⭐ 两数据集多特征全面对比，消融完整
写作质量: ⭐⭐⭐ 动机描述偏冗长，公式符号较多
价值: ⭐⭐⭐⭐ 弱监督 VAD 领域的稳定进步