Classification Matters: Improving Video Action Detection with Class-Specific Attention¶

会议: ECCV2024
arXiv: 2407.19698
代码: jinsingsangsung/ClassificationMatters
领域: video_understanding
关键词: video action detection, class-specific attention, transformer decoder, class queries, spatio-temporal tube

一句话总结¶

提出类别专属查询（class queries）机制，通过为每个动作类别分配独立的可学习查询，让模型动态关注与各类别相关的上下文区域，显著提升视频动作检测中的分类性能。

背景与动机¶

视频动作检测（Video Action Detection, VAD）需要同时定位演员并分类其动作。由于 VAD 中所有执行动作的实例都是人，动作定位相对简单，但动作分类极具挑战——不同动作类别的执行者外观高度相似，区分它们需要细粒度的外观和运动信息。

作者通过实验发现：对 TubeR、EVAD、STMixer 三个最新方法，提供 GT 类别标签带来的性能提升远大于提供 GT 边界框，说明 VAD 的性能瓶颈主要在分类而非定位。然而，现有基于 Transformer 的方法在构建分类特征时存在严重偏置——注意力集中在演员身体区域，忽略了对分类至关重要的上下文信息（如吸烟动作中的香烟、"listen to"动作中的说话者）。

核心问题¶

分类特征偏置：现有方法使用单一注意力图为所有动作类别共享相同的上下文信息，导致 Transformer 权重倾向于编码跨类别的共同语义（即演员本身），注意力高度集中在演员区域
缺乏类别特异性：不同动作类别需要关注不同的上下文区域，但现有方法无法为每个类别提供独立的关注范围
注意力范围受限：先前方法的注意力难以扩展到演员边界框之外，而许多关键分类线索恰恰位于框外

方法详解¶

整体架构¶

模型由三部分组成：backbone、3D Deformable Transformer Encoder 和 Transformer Decoder。输入视频片段 \(X \in \mathbb{R}^{T \times H_0 \times W_0 \times 3}\)，输出每个演员的时空管（spatio-temporal tube）和逐帧动作分类预测。

3D Deformable Transformer Encoder¶

将 backbone 输出的多尺度特征图 \(\mathbf{V} = \{\boldsymbol{v}^l \in \mathbb{R}^{T_l \times H_l \times W_l \times D}\}\) 送入编码器
借鉴 Deformable DETR，将 2D 偏移 \((\Delta h, \Delta w)\) 扩展为 3D 偏移 \((\Delta t, \Delta h, \Delta w)\)，使查询能聚合时间维度上的远距离特征
编码后通过插值统一到相同时空维度

Localizing Decoder Layer (LDL)¶

输入：演员框 \(A \in \mathbb{R}^{N_a \times 4}\)（空间部分）和演员嵌入 \(AE \in \mathbb{R}^{N_a \times D}\)（内容部分）
将 \(A\) 转换到 \(D\) 维空间构建演员位置查询 \(P\)
对多尺度特征图进行演员条件聚合，生成演员特有的上下文特征 \(\mathbf{x}\)
输出演员特征 \(\mathbf{f} \in \mathbb{R}^{N_a \times D}\)

Classifying Decoder Layer (CDL) — 核心创新¶

类别查询（class queries）：引入可学习嵌入 \(\boldsymbol{q} \in \mathbb{R}^{N_c \times D}\)，每个动作类别一个查询，编码类别特有信息
演员位置查询附加：将演员位置查询 \(P_i\) 附加到类别查询上，确保类别查询关注正确演员的上下文（解决 actor-agnostic activation 问题）
交互特征构建：将演员特征 \(\mathbf{f}_i\) 广播并与演员特有上下文 \(\mathbf{x}_i\) 求和，经卷积得到交互特征图 \(\mathbf{z}_i\)，表示第 \(i\) 个演员与上下文的交互
交叉注意力：类别查询（含演员位置信息）作为 query，交互特征图作为 key/value，生成分类注意力图 \(\mathcal{A}_i \in \mathbb{R}^{N_c \times HW}\)
由于 query 和 key 均同时包含类别和演员信息，注意力权重对不同类别的贡献差异远大于先前方法

训练目标¶

使用 Hungarian 匹配后计算多项损失：Binary Focal Loss（分类）、L1 Loss + GIoU Loss（定位）、BCE Loss（置信度）。

实验关键数据¶

AVA v2.2 数据集¶

方法	Backbone	预训练	mAP
TubeR	CSN-152	IG65M+K400	31.1
STMixer	CSN-152	IG65M+K400	32.8
EVAD	ViT-B	K400	32.3
本文	CSN-152	IG65M+K400	33.5
本文	ViT-B	K400	32.9
EVAD	ViT-B(K710)	K710+K400	37.7
本文	ViT-B(K710)	K710+K400	38.4

UCF101-24 数据集¶

本文模型 f-mAP 85.9 / v-mAP 61.7，超越 TubeR（83.2/58.4）和 EVAD（85.1/58.8）。

效率比较（JHMDB 40帧 tube 推理）¶

方法	参数量	FLOPs	推理时间
EVAD	185.4M	10.68T	8363ms
STMixer	219.2M	7.64T	2088ms
本文	117.8M	3.26T	432ms

参数量少 37%、FLOPs 仅为 EVAD 的 30%、推理速度快 19 倍。

消融实验¶

3D Deformable Encoder + LDL + CDL 完整模型：33.5 mAP，比 vanilla baseline（28.6）提升 +4.9
去掉演员位置查询附加：AVA 31.7（-1.8）、UCF 82.9（-3.0）
特征聚合方式：演员条件聚合 33.5 > 加权求和 32.9 > 均值池化 32.0
演员-上下文特征融合方式：求和 33.5 > 拼接+1D卷积 31.8 > 交叉注意力 31.3 > 自注意力 30.8

GT box 替换实验验证分类能力¶

提供 GT box 后本文模型性能提升幅度（+3.7~4.0）显著大于其他方法（+2.0~2.6），证明改进确实来自分类能力增强。

亮点¶

问题洞察深刻：通过 GT box/class 替换实验清晰证明 VAD 瓶颈在分类而非定位
类别查询设计优雅：为每个类别分配独立查询，自然生成可解释的类别注意力图，可视化效果直观
效率优势明显：通过单次前向传播生成整个时空管，避免滑动窗口策略，推理速度远超 EVAD（19x）
消融实验充分：逐一验证了 CDL、LDL、3D encoder、演员位置查询、特征聚合方式等组件的贡献

局限性 / 可改进方向¶

帧间信息交互缺失：当前 decoder 由于内存限制不在帧之间交换信息，时间动态建模完全依赖 encoder
JHMDB 数据集表现略低于 EVAD：作者推测因为 JHMDB 类别多样性低（仅21类），难以发挥类别查询的优势
类别查询数量与类别数绑定：对大规模类别集的扩展性有待验证
可探索稀疏地从空间域收集类别信息，释放内存用于时间动态建模

与相关工作的对比¶

维度	TubeR/EVAD	STMixer	本文
分类特征	单一注意力图，偏向演员区域	多尺度但仍缺乏类别特异性	类别查询生成类别专属注意力
推理方式	逐帧/滑动窗口	逐帧	单次生成整个时空管
注意力范围	受限于演员框附近	受限于演员框附近	可扩展到框外的关键上下文
可解释性	注意力图无类别区分	无	每个类别独立的可解释注意力图
效率	中等	中等	高（参数少、FLOPs 低）

启发与关联¶

类别查询思想可迁移：将"为每个类别/属性分配独立查询"的思路扩展到其他需要细粒度分类的检测任务（如细粒度物体检测、人体姿态识别）
上下文建模启示：动作识别不应仅关注演员本身，交互对象和场景上下文是关键分类线索
与 DAB-DETR 的位置先验利用方式不同——本文将位置信息用于类别查询的演员特异性引导，而非框回归

评分¶

新颖性: ⭐⭐⭐⭐ — 类别查询机制解决了 VAD 中长期被忽视的分类偏置问题
实验充分度: ⭐⭐⭐⭐⭐ — 三个基准、详尽消融、效率比较、GT替换验证、注意力可视化
写作质量: ⭐⭐⭐⭐ — 问题分析清晰，图表丰富直观
价值: ⭐⭐⭐⭐ — 性能和效率双优，可解释性强，对 VAD 分类问题提供新范式