跳转至

Classification Matters: Improving Video Action Detection with Class-Specific Attention

会议: ECCV2024
arXiv: 2407.19698
代码: jinsingsangsung/ClassificationMatters
领域: video_understanding
关键词: video action detection, class-specific attention, transformer decoder, class queries, spatio-temporal tube

一句话总结

提出类别专属查询(class queries)机制,通过为每个动作类别分配独立的可学习查询,让模型动态关注与各类别相关的上下文区域,显著提升视频动作检测中的分类性能。

背景与动机

视频动作检测(Video Action Detection, VAD)需要同时定位演员并分类其动作。由于 VAD 中所有执行动作的实例都是人,动作定位相对简单,但动作分类极具挑战——不同动作类别的执行者外观高度相似,区分它们需要细粒度的外观和运动信息。

作者通过实验发现:对 TubeR、EVAD、STMixer 三个最新方法,提供 GT 类别标签带来的性能提升远大于提供 GT 边界框,说明 VAD 的性能瓶颈主要在分类而非定位。然而,现有基于 Transformer 的方法在构建分类特征时存在严重偏置——注意力集中在演员身体区域,忽略了对分类至关重要的上下文信息(如吸烟动作中的香烟、"listen to"动作中的说话者)。

核心问题

  1. 分类特征偏置:现有方法使用单一注意力图为所有动作类别共享相同的上下文信息,导致 Transformer 权重倾向于编码跨类别的共同语义(即演员本身),注意力高度集中在演员区域
  2. 缺乏类别特异性:不同动作类别需要关注不同的上下文区域,但现有方法无法为每个类别提供独立的关注范围
  3. 注意力范围受限:先前方法的注意力难以扩展到演员边界框之外,而许多关键分类线索恰恰位于框外

方法详解

整体架构

模型由三部分组成:backbone、3D Deformable Transformer Encoder 和 Transformer Decoder。输入视频片段 \(X \in \mathbb{R}^{T \times H_0 \times W_0 \times 3}\),输出每个演员的时空管(spatio-temporal tube)和逐帧动作分类预测。

3D Deformable Transformer Encoder

  • 将 backbone 输出的多尺度特征图 \(\mathbf{V} = \{\boldsymbol{v}^l \in \mathbb{R}^{T_l \times H_l \times W_l \times D}\}\) 送入编码器
  • 借鉴 Deformable DETR,将 2D 偏移 \((\Delta h, \Delta w)\) 扩展为 3D 偏移 \((\Delta t, \Delta h, \Delta w)\),使查询能聚合时间维度上的远距离特征
  • 编码后通过插值统一到相同时空维度

Localizing Decoder Layer (LDL)

  • 输入:演员框 \(A \in \mathbb{R}^{N_a \times 4}\)(空间部分)和演员嵌入 \(AE \in \mathbb{R}^{N_a \times D}\)(内容部分)
  • \(A\) 转换到 \(D\) 维空间构建演员位置查询 \(P\)
  • 对多尺度特征图进行演员条件聚合,生成演员特有的上下文特征 \(\mathbf{x}\)
  • 输出演员特征 \(\mathbf{f} \in \mathbb{R}^{N_a \times D}\)

Classifying Decoder Layer (CDL) — 核心创新

  • 类别查询(class queries):引入可学习嵌入 \(\boldsymbol{q} \in \mathbb{R}^{N_c \times D}\),每个动作类别一个查询,编码类别特有信息
  • 演员位置查询附加:将演员位置查询 \(P_i\) 附加到类别查询上,确保类别查询关注正确演员的上下文(解决 actor-agnostic activation 问题)
  • 交互特征构建:将演员特征 \(\mathbf{f}_i\) 广播并与演员特有上下文 \(\mathbf{x}_i\) 求和,经卷积得到交互特征图 \(\mathbf{z}_i\),表示第 \(i\) 个演员与上下文的交互
  • 交叉注意力:类别查询(含演员位置信息)作为 query,交互特征图作为 key/value,生成分类注意力图 \(\mathcal{A}_i \in \mathbb{R}^{N_c \times HW}\)
  • 由于 query 和 key 均同时包含类别和演员信息,注意力权重对不同类别的贡献差异远大于先前方法

训练目标

使用 Hungarian 匹配后计算多项损失:Binary Focal Loss(分类)、L1 Loss + GIoU Loss(定位)、BCE Loss(置信度)。

实验关键数据

AVA v2.2 数据集

方法 Backbone 预训练 mAP
TubeR CSN-152 IG65M+K400 31.1
STMixer CSN-152 IG65M+K400 32.8
EVAD ViT-B K400 32.3
本文 CSN-152 IG65M+K400 33.5
本文 ViT-B K400 32.9
EVAD ViT-B(K710) K710+K400 37.7
本文 ViT-B(K710) K710+K400 38.4

UCF101-24 数据集

本文模型 f-mAP 85.9 / v-mAP 61.7,超越 TubeR(83.2/58.4)和 EVAD(85.1/58.8)。

效率比较(JHMDB 40帧 tube 推理)

方法 参数量 FLOPs 推理时间
EVAD 185.4M 10.68T 8363ms
STMixer 219.2M 7.64T 2088ms
本文 117.8M 3.26T 432ms

参数量少 37%、FLOPs 仅为 EVAD 的 30%、推理速度快 19 倍。

消融实验

  • 3D Deformable Encoder + LDL + CDL 完整模型:33.5 mAP,比 vanilla baseline(28.6)提升 +4.9
  • 去掉演员位置查询附加:AVA 31.7(-1.8)、UCF 82.9(-3.0)
  • 特征聚合方式:演员条件聚合 33.5 > 加权求和 32.9 > 均值池化 32.0
  • 演员-上下文特征融合方式:求和 33.5 > 拼接+1D卷积 31.8 > 交叉注意力 31.3 > 自注意力 30.8

GT box 替换实验验证分类能力

提供 GT box 后本文模型性能提升幅度(+3.7~4.0)显著大于其他方法(+2.0~2.6),证明改进确实来自分类能力增强。

亮点

  1. 问题洞察深刻:通过 GT box/class 替换实验清晰证明 VAD 瓶颈在分类而非定位
  2. 类别查询设计优雅:为每个类别分配独立查询,自然生成可解释的类别注意力图,可视化效果直观
  3. 效率优势明显:通过单次前向传播生成整个时空管,避免滑动窗口策略,推理速度远超 EVAD(19x)
  4. 消融实验充分:逐一验证了 CDL、LDL、3D encoder、演员位置查询、特征聚合方式等组件的贡献

局限性 / 可改进方向

  1. 帧间信息交互缺失:当前 decoder 由于内存限制不在帧之间交换信息,时间动态建模完全依赖 encoder
  2. JHMDB 数据集表现略低于 EVAD:作者推测因为 JHMDB 类别多样性低(仅21类),难以发挥类别查询的优势
  3. 类别查询数量与类别数绑定:对大规模类别集的扩展性有待验证
  4. 可探索稀疏地从空间域收集类别信息,释放内存用于时间动态建模

与相关工作的对比

维度 TubeR/EVAD STMixer 本文
分类特征 单一注意力图,偏向演员区域 多尺度但仍缺乏类别特异性 类别查询生成类别专属注意力
推理方式 逐帧/滑动窗口 逐帧 单次生成整个时空管
注意力范围 受限于演员框附近 受限于演员框附近 可扩展到框外的关键上下文
可解释性 注意力图无类别区分 每个类别独立的可解释注意力图
效率 中等 中等 高(参数少、FLOPs 低)

启发与关联

  • 类别查询思想可迁移:将"为每个类别/属性分配独立查询"的思路扩展到其他需要细粒度分类的检测任务(如细粒度物体检测、人体姿态识别)
  • 上下文建模启示:动作识别不应仅关注演员本身,交互对象和场景上下文是关键分类线索
  • 与 DAB-DETR 的位置先验利用方式不同——本文将位置信息用于类别查询的演员特异性引导,而非框回归

评分

  • 新颖性: ⭐⭐⭐⭐ — 类别查询机制解决了 VAD 中长期被忽视的分类偏置问题
  • 实验充分度: ⭐⭐⭐⭐⭐ — 三个基准、详尽消融、效率比较、GT替换验证、注意力可视化
  • 写作质量: ⭐⭐⭐⭐ — 问题分析清晰,图表丰富直观
  • 价值: ⭐⭐⭐⭐ — 性能和效率双优,可解释性强,对 VAD 分类问题提供新范式