Classification Matters: Improving Video Action Detection with Class-Specific Attention¶
会议: ECCV2024
arXiv: 2407.19698
代码: jinsingsangsung/ClassificationMatters
领域: video_understanding
关键词: video action detection, class-specific attention, transformer decoder, class queries, spatio-temporal tube
一句话总结¶
提出类别专属查询(class queries)机制,通过为每个动作类别分配独立的可学习查询,让模型动态关注与各类别相关的上下文区域,显著提升视频动作检测中的分类性能。
背景与动机¶
视频动作检测(Video Action Detection, VAD)需要同时定位演员并分类其动作。由于 VAD 中所有执行动作的实例都是人,动作定位相对简单,但动作分类极具挑战——不同动作类别的执行者外观高度相似,区分它们需要细粒度的外观和运动信息。
作者通过实验发现:对 TubeR、EVAD、STMixer 三个最新方法,提供 GT 类别标签带来的性能提升远大于提供 GT 边界框,说明 VAD 的性能瓶颈主要在分类而非定位。然而,现有基于 Transformer 的方法在构建分类特征时存在严重偏置——注意力集中在演员身体区域,忽略了对分类至关重要的上下文信息(如吸烟动作中的香烟、"listen to"动作中的说话者)。
核心问题¶
- 分类特征偏置:现有方法使用单一注意力图为所有动作类别共享相同的上下文信息,导致 Transformer 权重倾向于编码跨类别的共同语义(即演员本身),注意力高度集中在演员区域
- 缺乏类别特异性:不同动作类别需要关注不同的上下文区域,但现有方法无法为每个类别提供独立的关注范围
- 注意力范围受限:先前方法的注意力难以扩展到演员边界框之外,而许多关键分类线索恰恰位于框外
方法详解¶
整体架构¶
模型由三部分组成:backbone、3D Deformable Transformer Encoder 和 Transformer Decoder。输入视频片段 \(X \in \mathbb{R}^{T \times H_0 \times W_0 \times 3}\),输出每个演员的时空管(spatio-temporal tube)和逐帧动作分类预测。
3D Deformable Transformer Encoder¶
- 将 backbone 输出的多尺度特征图 \(\mathbf{V} = \{\boldsymbol{v}^l \in \mathbb{R}^{T_l \times H_l \times W_l \times D}\}\) 送入编码器
- 借鉴 Deformable DETR,将 2D 偏移 \((\Delta h, \Delta w)\) 扩展为 3D 偏移 \((\Delta t, \Delta h, \Delta w)\),使查询能聚合时间维度上的远距离特征
- 编码后通过插值统一到相同时空维度
Localizing Decoder Layer (LDL)¶
- 输入:演员框 \(A \in \mathbb{R}^{N_a \times 4}\)(空间部分)和演员嵌入 \(AE \in \mathbb{R}^{N_a \times D}\)(内容部分)
- 将 \(A\) 转换到 \(D\) 维空间构建演员位置查询 \(P\)
- 对多尺度特征图进行演员条件聚合,生成演员特有的上下文特征 \(\mathbf{x}\)
- 输出演员特征 \(\mathbf{f} \in \mathbb{R}^{N_a \times D}\)
Classifying Decoder Layer (CDL) — 核心创新¶
- 类别查询(class queries):引入可学习嵌入 \(\boldsymbol{q} \in \mathbb{R}^{N_c \times D}\),每个动作类别一个查询,编码类别特有信息
- 演员位置查询附加:将演员位置查询 \(P_i\) 附加到类别查询上,确保类别查询关注正确演员的上下文(解决 actor-agnostic activation 问题)
- 交互特征构建:将演员特征 \(\mathbf{f}_i\) 广播并与演员特有上下文 \(\mathbf{x}_i\) 求和,经卷积得到交互特征图 \(\mathbf{z}_i\),表示第 \(i\) 个演员与上下文的交互
- 交叉注意力:类别查询(含演员位置信息)作为 query,交互特征图作为 key/value,生成分类注意力图 \(\mathcal{A}_i \in \mathbb{R}^{N_c \times HW}\)
- 由于 query 和 key 均同时包含类别和演员信息,注意力权重对不同类别的贡献差异远大于先前方法
训练目标¶
使用 Hungarian 匹配后计算多项损失:Binary Focal Loss(分类)、L1 Loss + GIoU Loss(定位)、BCE Loss(置信度)。
实验关键数据¶
AVA v2.2 数据集¶
| 方法 | Backbone | 预训练 | mAP |
|---|---|---|---|
| TubeR | CSN-152 | IG65M+K400 | 31.1 |
| STMixer | CSN-152 | IG65M+K400 | 32.8 |
| EVAD | ViT-B | K400 | 32.3 |
| 本文 | CSN-152 | IG65M+K400 | 33.5 |
| 本文 | ViT-B | K400 | 32.9 |
| EVAD | ViT-B(K710) | K710+K400 | 37.7 |
| 本文 | ViT-B(K710) | K710+K400 | 38.4 |
UCF101-24 数据集¶
本文模型 f-mAP 85.9 / v-mAP 61.7,超越 TubeR(83.2/58.4)和 EVAD(85.1/58.8)。
效率比较(JHMDB 40帧 tube 推理)¶
| 方法 | 参数量 | FLOPs | 推理时间 |
|---|---|---|---|
| EVAD | 185.4M | 10.68T | 8363ms |
| STMixer | 219.2M | 7.64T | 2088ms |
| 本文 | 117.8M | 3.26T | 432ms |
参数量少 37%、FLOPs 仅为 EVAD 的 30%、推理速度快 19 倍。
消融实验¶
- 3D Deformable Encoder + LDL + CDL 完整模型:33.5 mAP,比 vanilla baseline(28.6)提升 +4.9
- 去掉演员位置查询附加:AVA 31.7(-1.8)、UCF 82.9(-3.0)
- 特征聚合方式:演员条件聚合 33.5 > 加权求和 32.9 > 均值池化 32.0
- 演员-上下文特征融合方式:求和 33.5 > 拼接+1D卷积 31.8 > 交叉注意力 31.3 > 自注意力 30.8
GT box 替换实验验证分类能力¶
提供 GT box 后本文模型性能提升幅度(+3.7~4.0)显著大于其他方法(+2.0~2.6),证明改进确实来自分类能力增强。
亮点¶
- 问题洞察深刻:通过 GT box/class 替换实验清晰证明 VAD 瓶颈在分类而非定位
- 类别查询设计优雅:为每个类别分配独立查询,自然生成可解释的类别注意力图,可视化效果直观
- 效率优势明显:通过单次前向传播生成整个时空管,避免滑动窗口策略,推理速度远超 EVAD(19x)
- 消融实验充分:逐一验证了 CDL、LDL、3D encoder、演员位置查询、特征聚合方式等组件的贡献
局限性 / 可改进方向¶
- 帧间信息交互缺失:当前 decoder 由于内存限制不在帧之间交换信息,时间动态建模完全依赖 encoder
- JHMDB 数据集表现略低于 EVAD:作者推测因为 JHMDB 类别多样性低(仅21类),难以发挥类别查询的优势
- 类别查询数量与类别数绑定:对大规模类别集的扩展性有待验证
- 可探索稀疏地从空间域收集类别信息,释放内存用于时间动态建模
与相关工作的对比¶
| 维度 | TubeR/EVAD | STMixer | 本文 |
|---|---|---|---|
| 分类特征 | 单一注意力图,偏向演员区域 | 多尺度但仍缺乏类别特异性 | 类别查询生成类别专属注意力 |
| 推理方式 | 逐帧/滑动窗口 | 逐帧 | 单次生成整个时空管 |
| 注意力范围 | 受限于演员框附近 | 受限于演员框附近 | 可扩展到框外的关键上下文 |
| 可解释性 | 注意力图无类别区分 | 无 | 每个类别独立的可解释注意力图 |
| 效率 | 中等 | 中等 | 高(参数少、FLOPs 低) |
启发与关联¶
- 类别查询思想可迁移:将"为每个类别/属性分配独立查询"的思路扩展到其他需要细粒度分类的检测任务(如细粒度物体检测、人体姿态识别)
- 上下文建模启示:动作识别不应仅关注演员本身,交互对象和场景上下文是关键分类线索
- 与 DAB-DETR 的位置先验利用方式不同——本文将位置信息用于类别查询的演员特异性引导,而非框回归
评分¶
- 新颖性: ⭐⭐⭐⭐ — 类别查询机制解决了 VAD 中长期被忽视的分类偏置问题
- 实验充分度: ⭐⭐⭐⭐⭐ — 三个基准、详尽消融、效率比较、GT替换验证、注意力可视化
- 写作质量: ⭐⭐⭐⭐ — 问题分析清晰,图表丰富直观
- 价值: ⭐⭐⭐⭐ — 性能和效率双优,可解释性强,对 VAD 分类问题提供新范式