跳转至

Text-guided Fine-Grained Video Anomaly Understanding

会议: CVPR2026
arXiv: 2511.00524
代码: github.com/momiji-bit/T-VAU
领域: 多模态VLM
关键词: 视频异常检测, 异常热力图, 区域感知编码器, 大视觉语言模型, 多轮对话

一句话总结

提出T-VAU框架,通过异常热力图解码器(AHD)实现像素级时空异常定位,并设计区域感知异常编码器(RAE)将热力图证据注入LVLM进行异常判断、定位和语义解释的统一推理。

研究背景与动机

视频异常检测(VAD)对安全监控至关重要。现有方法存在根本性局限: - 传统VAD:输出视频/帧级异常分数,提供粗粒度的二值决策,缺乏可解释性证据。细粒度线索可能被特征聚合稀释 - LVLM直接应用:虽能产生文本判断,但缺乏像素级定位能力,对微弱异常信号的捕捉不可靠,导致文本描述不忠实 - LVLM-扩散混合:结合可视化和文本,但可能不稳定/不一致

核心需求:异常理解不仅需要"是否异常",还需要"哪里异常"、"哪个目标负责"、"如何随时间演变"——这要求从像素级证据到语言推理的闭环。

切入角度:(i) 通过视觉-文本对齐提取时空异常证据,(ii) 将证据作为结构化提示注入LVLM完成多任务、多轮推理。

方法详解

整体框架

T-VAU在冻结的LVLM骨干上添加两个轻量可训练模块:AHD(异常热力图解码器)和RAE(区域感知异常编码器)。输入为视频+自然语言查询+正常/异常文本提示,输出像素级异常热力图和多轮对话回答。

关键设计

  1. 异常热力图解码器(AHD)

    • 从视觉编码器提取多尺度特征 \(V_i\)(第1/8/16/32层)
    • 用MLP将视觉特征投影到文本空间,计算余弦相似度:\(h_c^i[t,h,w] = \text{CosineSimilarity}(V'_i[t,:,h,w], T_c)\)
    • 用可学习权重 \(w_i\) 跨层融合:\(H_c = \sum_i w_i \cdot h_c^i\)
    • Softmax后取异常通道得到最终热力图
    • 设计动机:利用视觉-文本对齐直接从中间表示提取异常信号,无需阈值设定
  2. 区域感知异常编码器(RAE)

    • 计算相邻帧热力图时间差分:\(X[t] = H_c[t+1] - H_c[t]\),捕捉运动感知信息
    • 卷积骨干提取区域感知特征
    • 将每帧划分3×3网格,自适应池化得到区域提示 \(P_{region}\)
    • 全局提示 \(p_{global}\) 通过空间均值池化生成
    • 最终提示序列:\(P_{An} = [P_{base}, P_{region}, p_{global}]\)
    • 与视觉提示和对话上下文拼接后送入LLM解码器
  3. 细粒度异常理解数据集构建

    • 基于ShanghaiTech和UBnormal,三阶段流水线:
    • 帧级结构化提示 → 提取目标属性+空间信息 → 聚合为目标时间线
    • 异常聚焦精炼:用异常掩码+高斯模糊抑制背景
    • 跨模态一致性验证:外观↔运动双向验证

损失函数 / 训练策略

  • AHD阶段:仅优化AHD,冻结其他部分
  • RAE阶段:课程式SFT训练(外观-运动叙述 → 异常聚焦精炼)
  • 整体:LVLM骨干冻结,仅训练AHD和RAE两个轻量模块

实验关键数据

主实验

数据集 指标 T-VAU 之前SOTA 提升
UBnormal Micro-AUC 94.8 68.2 (Georgescu FT) +26.6
UBnormal RBDC 67.8 28.7 (Georgescu FT) +39.1
UBnormal TBDC 76.7 58.1 (Georgescu FT) +18.6
ShanghaiTech BLEU-4 (Target) 62.67 55.73 (InternVL 8B) +6.94
ShanghaiTech BLEU-4 (Trajectory) 88.84 82.65 (InternVL 8B) +6.19
ShanghaiTech Yes/No Acc 97.67% 94.28% (InternVL 8B) +3.39%

消融实验

配置 RBDC/TBDC BLEU-4 (Target) Yes/No Acc
T-VAU完整 67.8/76.7 62.67 97.67%
无AHD 不适用 61.82 95.38%
无RAE 67.8/76.7 - -
无AHD&RAE 不适用 61.82 95.38%

关键发现

  • AHD和RAE具有强互补性:AHD提供像素级证据,RAE将证据转化为可理解的语言
  • One-shot设定下AHD即达94.5% micro-AUC和64.3% RBDC,数据效率极高
  • 微调后进一步提升,但one-shot已建立强基线
  • 模型参数仅增加约50M(8274→8325M),轻量高效

亮点与洞察

  • "证据→推理"的闭环设计思想:异常热力图作为视觉证据,RAE将其结构化注入语言模型
  • 细粒度数据集构建流程系统完整:帧级提取→时间聚合→异常聚焦→跨模态验证
  • 轨迹可视化(热力图跨帧累加)提供了直观的时序一致性验证
  • 无需阈值的异常定位设计,避免了传统方法的阈值敏感性问题

局限与展望

  • 微动作(位移极小)和高度非刚性运动场景性能仍有挑战
  • 场景依赖的外观变化(镜面反射、雾等)影响定位准确性
  • 数据集基于ShanghaiTech和UBnormal构建,场景多样性有限
  • LVLM骨干冻结可能限制了更深层的异常理解能力

相关工作与启发

  • 与HAWK、Holmes-VAU等VAU方法相比,T-VAU通过AHD提供了显式的像素级证据
  • LAVAD等免训练方法虽有趣但缺乏精确定位
  • 结合SVC(细微视觉计算)视角审视异常检测是有意义的方向

评分

  • 新颖性: ⭐⭐⭐⭐ AHD+RAE的证据-推理闭环设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 多维度评估+完整消融+定性分析
  • 写作质量: ⭐⭐⭐⭐ 框架图清晰,各组件关系明确
  • 价值: ⭐⭐⭐⭐ 将异常检测从分数预测提升到可解释推理

相关论文