Text-guided Fine-Grained Video Anomaly Understanding¶
会议: CVPR2026
arXiv: 2511.00524
代码: github.com/momiji-bit/T-VAU
领域: 多模态VLM
关键词: 视频异常检测, 异常热力图, 区域感知编码器, 大视觉语言模型, 多轮对话
一句话总结¶
提出T-VAU框架,通过异常热力图解码器(AHD)实现像素级时空异常定位,并设计区域感知异常编码器(RAE)将热力图证据注入LVLM进行异常判断、定位和语义解释的统一推理。
研究背景与动机¶
视频异常检测(VAD)对安全监控至关重要。现有方法存在根本性局限: - 传统VAD:输出视频/帧级异常分数,提供粗粒度的二值决策,缺乏可解释性证据。细粒度线索可能被特征聚合稀释 - LVLM直接应用:虽能产生文本判断,但缺乏像素级定位能力,对微弱异常信号的捕捉不可靠,导致文本描述不忠实 - LVLM-扩散混合:结合可视化和文本,但可能不稳定/不一致
核心需求:异常理解不仅需要"是否异常",还需要"哪里异常"、"哪个目标负责"、"如何随时间演变"——这要求从像素级证据到语言推理的闭环。
切入角度:(i) 通过视觉-文本对齐提取时空异常证据,(ii) 将证据作为结构化提示注入LVLM完成多任务、多轮推理。
方法详解¶
整体框架¶
T-VAU在冻结的LVLM骨干上添加两个轻量可训练模块:AHD(异常热力图解码器)和RAE(区域感知异常编码器)。输入为视频+自然语言查询+正常/异常文本提示,输出像素级异常热力图和多轮对话回答。
关键设计¶
-
异常热力图解码器(AHD):
- 从视觉编码器提取多尺度特征 \(V_i\)(第1/8/16/32层)
- 用MLP将视觉特征投影到文本空间,计算余弦相似度:\(h_c^i[t,h,w] = \text{CosineSimilarity}(V'_i[t,:,h,w], T_c)\)
- 用可学习权重 \(w_i\) 跨层融合:\(H_c = \sum_i w_i \cdot h_c^i\)
- Softmax后取异常通道得到最终热力图
- 设计动机:利用视觉-文本对齐直接从中间表示提取异常信号,无需阈值设定
-
区域感知异常编码器(RAE):
- 计算相邻帧热力图时间差分:\(X[t] = H_c[t+1] - H_c[t]\),捕捉运动感知信息
- 卷积骨干提取区域感知特征
- 将每帧划分3×3网格,自适应池化得到区域提示 \(P_{region}\)
- 全局提示 \(p_{global}\) 通过空间均值池化生成
- 最终提示序列:\(P_{An} = [P_{base}, P_{region}, p_{global}]\)
- 与视觉提示和对话上下文拼接后送入LLM解码器
-
细粒度异常理解数据集构建:
- 基于ShanghaiTech和UBnormal,三阶段流水线:
- 帧级结构化提示 → 提取目标属性+空间信息 → 聚合为目标时间线
- 异常聚焦精炼:用异常掩码+高斯模糊抑制背景
- 跨模态一致性验证:外观↔运动双向验证
损失函数 / 训练策略¶
- AHD阶段:仅优化AHD,冻结其他部分
- RAE阶段:课程式SFT训练(外观-运动叙述 → 异常聚焦精炼)
- 整体:LVLM骨干冻结,仅训练AHD和RAE两个轻量模块
实验关键数据¶
主实验¶
| 数据集 | 指标 | T-VAU | 之前SOTA | 提升 |
|---|---|---|---|---|
| UBnormal | Micro-AUC | 94.8 | 68.2 (Georgescu FT) | +26.6 |
| UBnormal | RBDC | 67.8 | 28.7 (Georgescu FT) | +39.1 |
| UBnormal | TBDC | 76.7 | 58.1 (Georgescu FT) | +18.6 |
| ShanghaiTech | BLEU-4 (Target) | 62.67 | 55.73 (InternVL 8B) | +6.94 |
| ShanghaiTech | BLEU-4 (Trajectory) | 88.84 | 82.65 (InternVL 8B) | +6.19 |
| ShanghaiTech | Yes/No Acc | 97.67% | 94.28% (InternVL 8B) | +3.39% |
消融实验¶
| 配置 | RBDC/TBDC | BLEU-4 (Target) | Yes/No Acc |
|---|---|---|---|
| T-VAU完整 | 67.8/76.7 | 62.67 | 97.67% |
| 无AHD | 不适用 | 61.82 | 95.38% |
| 无RAE | 67.8/76.7 | - | - |
| 无AHD&RAE | 不适用 | 61.82 | 95.38% |
关键发现¶
- AHD和RAE具有强互补性:AHD提供像素级证据,RAE将证据转化为可理解的语言
- One-shot设定下AHD即达94.5% micro-AUC和64.3% RBDC,数据效率极高
- 微调后进一步提升,但one-shot已建立强基线
- 模型参数仅增加约50M(8274→8325M),轻量高效
亮点与洞察¶
- "证据→推理"的闭环设计思想:异常热力图作为视觉证据,RAE将其结构化注入语言模型
- 细粒度数据集构建流程系统完整:帧级提取→时间聚合→异常聚焦→跨模态验证
- 轨迹可视化(热力图跨帧累加)提供了直观的时序一致性验证
- 无需阈值的异常定位设计,避免了传统方法的阈值敏感性问题
局限与展望¶
- 微动作(位移极小)和高度非刚性运动场景性能仍有挑战
- 场景依赖的外观变化(镜面反射、雾等)影响定位准确性
- 数据集基于ShanghaiTech和UBnormal构建,场景多样性有限
- LVLM骨干冻结可能限制了更深层的异常理解能力
相关工作与启发¶
- 与HAWK、Holmes-VAU等VAU方法相比,T-VAU通过AHD提供了显式的像素级证据
- LAVAD等免训练方法虽有趣但缺乏精确定位
- 结合SVC(细微视觉计算)视角审视异常检测是有意义的方向
评分¶
- 新颖性: ⭐⭐⭐⭐ AHD+RAE的证据-推理闭环设计新颖
- 实验充分度: ⭐⭐⭐⭐ 多维度评估+完整消融+定性分析
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,各组件关系明确
- 价值: ⭐⭐⭐⭐ 将异常检测从分数预测提升到可解释推理
相关论文¶
- [AAAI 2026] FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding
- [CVPR 2026] FINER: MLLMs Hallucinate under Fine-grained Negative Queries
- [CVPR 2026] Geometry-Guided Camera Motion Understanding in VideoLLMs
- [CVPR 2026] SafeDrive: Fine-Grained Safety Reasoning for End-to-End Driving in a Sparse World
- [ICLR 2026] Dynamic Reflections: Probing Video Representations with Text Alignment