Text-guided Fine-Grained Video Anomaly Understanding¶

会议: CVPR2026
arXiv: 2511.00524
代码: github.com/momiji-bit/T-VAU
领域: 多模态VLM
关键词: 视频异常检测, 异常热力图, 区域感知编码器, 大视觉语言模型, 多轮对话

一句话总结¶

提出T-VAU框架，通过异常热力图解码器(AHD)实现像素级时空异常定位，并设计区域感知异常编码器(RAE)将热力图证据注入LVLM进行异常判断、定位和语义解释的统一推理。

研究背景与动机¶

视频异常检测(VAD)对安全监控至关重要。现有方法存在根本性局限： - 传统VAD：输出视频/帧级异常分数，提供粗粒度的二值决策，缺乏可解释性证据。细粒度线索可能被特征聚合稀释 - LVLM直接应用：虽能产生文本判断，但缺乏像素级定位能力，对微弱异常信号的捕捉不可靠，导致文本描述不忠实 - LVLM-扩散混合：结合可视化和文本，但可能不稳定/不一致

核心需求：异常理解不仅需要"是否异常"，还需要"哪里异常"、"哪个目标负责"、"如何随时间演变"——这要求从像素级证据到语言推理的闭环。

切入角度：(i) 通过视觉-文本对齐提取时空异常证据，(ii) 将证据作为结构化提示注入LVLM完成多任务、多轮推理。

方法详解¶

整体框架¶

T-VAU在冻结的LVLM骨干上添加两个轻量可训练模块：AHD（异常热力图解码器）和RAE（区域感知异常编码器）。输入为视频+自然语言查询+正常/异常文本提示，输出像素级异常热力图和多轮对话回答。

关键设计¶

异常热力图解码器(AHD)：
- 从视觉编码器提取多尺度特征 \(V_i\)（第1/8/16/32层）
- 用MLP将视觉特征投影到文本空间，计算余弦相似度：\(h_c^i[t,h,w] = \text{CosineSimilarity}(V'_i[t,:,h,w], T_c)\)
- 用可学习权重 \(w_i\) 跨层融合：\(H_c = \sum_i w_i \cdot h_c^i\)
- Softmax后取异常通道得到最终热力图
- 设计动机：利用视觉-文本对齐直接从中间表示提取异常信号，无需阈值设定
区域感知异常编码器(RAE)：
- 计算相邻帧热力图时间差分：\(X[t] = H_c[t+1] - H_c[t]\)，捕捉运动感知信息
- 卷积骨干提取区域感知特征
- 将每帧划分3×3网格，自适应池化得到区域提示 \(P_{region}\)
- 全局提示 \(p_{global}\) 通过空间均值池化生成
- 最终提示序列：\(P_{An} = [P_{base}, P_{region}, p_{global}]\)
- 与视觉提示和对话上下文拼接后送入LLM解码器
细粒度异常理解数据集构建：
- 基于ShanghaiTech和UBnormal，三阶段流水线：
- 帧级结构化提示 → 提取目标属性+空间信息 → 聚合为目标时间线
- 异常聚焦精炼：用异常掩码+高斯模糊抑制背景
- 跨模态一致性验证：外观↔运动双向验证

损失函数 / 训练策略¶

AHD阶段：仅优化AHD，冻结其他部分
RAE阶段：课程式SFT训练（外观-运动叙述 → 异常聚焦精炼）
整体：LVLM骨干冻结，仅训练AHD和RAE两个轻量模块

实验关键数据¶

主实验¶

数据集	指标	T-VAU	之前SOTA	提升
UBnormal	Micro-AUC	94.8	68.2 (Georgescu FT)	+26.6
UBnormal	RBDC	67.8	28.7 (Georgescu FT)	+39.1
UBnormal	TBDC	76.7	58.1 (Georgescu FT)	+18.6
ShanghaiTech	BLEU-4 (Target)	62.67	55.73 (InternVL 8B)	+6.94
ShanghaiTech	BLEU-4 (Trajectory)	88.84	82.65 (InternVL 8B)	+6.19
ShanghaiTech	Yes/No Acc	97.67%	94.28% (InternVL 8B)	+3.39%

消融实验¶

配置	RBDC/TBDC	BLEU-4 (Target)	Yes/No Acc
T-VAU完整	67.8/76.7	62.67	97.67%
无AHD	不适用	61.82	95.38%
无RAE	67.8/76.7	-	-
无AHD&RAE	不适用	61.82	95.38%

关键发现¶

AHD和RAE具有强互补性：AHD提供像素级证据，RAE将证据转化为可理解的语言
One-shot设定下AHD即达94.5% micro-AUC和64.3% RBDC，数据效率极高
微调后进一步提升，但one-shot已建立强基线
模型参数仅增加约50M（8274→8325M），轻量高效

亮点与洞察¶

"证据→推理"的闭环设计思想：异常热力图作为视觉证据，RAE将其结构化注入语言模型
细粒度数据集构建流程系统完整：帧级提取→时间聚合→异常聚焦→跨模态验证
轨迹可视化（热力图跨帧累加）提供了直观的时序一致性验证
无需阈值的异常定位设计，避免了传统方法的阈值敏感性问题

局限与展望¶

微动作（位移极小）和高度非刚性运动场景性能仍有挑战
场景依赖的外观变化（镜面反射、雾等）影响定位准确性
数据集基于ShanghaiTech和UBnormal构建，场景多样性有限
LVLM骨干冻结可能限制了更深层的异常理解能力

评分¶

新颖性: ⭐⭐⭐⭐ AHD+RAE的证据-推理闭环设计新颖
实验充分度: ⭐⭐⭐⭐ 多维度评估+完整消融+定性分析
写作质量: ⭐⭐⭐⭐ 框架图清晰，各组件关系明确
价值: ⭐⭐⭐⭐ 将异常检测从分数预测提升到可解释推理