跳转至

Few-Shot Precise Event Spotting via Unified Multi-Entity Graph and Distillation

会议: AAAI 2026
arXiv: 2511.14186
代码: github.com/LZYAndy/UMEG-Net
领域: 人体理解
关键词: 精确事件定位, 少样本学习, 统一多实体图, 知识蒸馏, 体育视频分析

一句话总结

提出 UMEG-Net,面向少样本精确事件定位(PES)任务,通过构建统一多实体图(融合人体骨架、运动物体关键点和环境标志点),结合高效的时空图卷积和无参数多尺度时序平移模块,并通过多模态知识蒸馏将图特征迁移至 RGB 学生网络,在五个运动数据集上以极少标注数据显著超越现有方法。

研究背景与动机

精确事件定位(PES)问题

精确事件定位旨在从长时未裁剪视频中识别细粒度事件及其精确时间戳,容许窗口极严格(1-2 帧)。典型场景包括球拍运动中的击球瞬间、体操中的起跳/落地等。

PES 的三大挑战:

事件快速连续发生:运动视频中多个事件间隔极短

运动模糊:高速运动导致视觉特征退化

视觉差异微妙:不同事件类型的视觉区分度低

现有方法的局限

端到端 RGB 方法(E2E-Spot、T-DEED、F3ED):依赖大规模帧级标注数据集,在少样本条件下性能急剧下降

骨架方法(STGCN++、BlockGCN 等):仅使用人体姿态,忽略了球和场地等关键信息

传统少样本方法:针对粗粒度动作识别,无法满足 PES 帧级精度

核心动机

运动场景中事件的发生涉及多个实体的交互——球员击球需要人体+球+场地的联合建模。构建统一多实体图来表示这些交互关系,是提升少样本 PES 性能的关键。同时,关键点检测的不可靠性需要通过多模态蒸馏来增强鲁棒性。

方法详解

整体框架

  1. 关键点提取:HRNet(人体姿态)+ YOLOv8(球/球员检测)+ 专用方法(场地角点)
  2. 统一多实体图构建:将所有关键点组织为统一图结构
  3. UMEG Block 堆叠:空间 GCN + 多尺度时序平移
  4. 事件定位和分类:线性层输出帧级事件概率
  5. 多模态蒸馏:UMEG-Net 教师 → RGB 学生网络

关键设计

1. 统一多实体图构建

节点集 \(\mathcal{V}_t = \{V_p^t, V_b^t, V_c^t\}\)(球员关节 + 球 + 场地角点),边集包含四类: $\(\mathcal{E}_t = \mathcal{E}_t^{intra} \cup \mathcal{E}_t^{p-b} \cup \mathcal{E}_t^{p-c} \cup \mathcal{E}_t^{c-c}\)$

  • 骨架内连接(标准人体关节拓扑)
  • 人-球连接(球拍运动:手腕→球;足球:脚踝/肩膀→球)
  • 人-场地连接(脚部关节→场地角点)
  • 场地角点互连(形成矩形)

设计动机:不同运动使用不同的人-球连接方式,充分利用运动领域知识。传统骨架图忽略的信息对事件判定至关重要。

2. UMEG Block:空间 GCN + 多尺度时序平移

空间 GCN:在整个多实体图上执行图卷积(非独立处理每人),联合建模人-人和人-实体交互: $\(\mathcal{H}^{(\ell+1)} = \text{ReLU}(A^{(\ell)} \mathcal{H}^{(\ell)} W^{(\ell)})\)$

多尺度时序平移模块(零参数):用无参数的时序平移替代时序卷积,极大减少可训练参数:

  1. 将特征沿通道分为三部分(静态、前向、后向,比例 \(\alpha = 1/8\)
  2. \(\Delta \in \{1, 2, 4\}\) 执行双向平移
  3. 各平移流经空间 GCN 更新后多尺度融合

设计动机:\(\Delta \in \{1, 2, 4\}\) 同时捕捉短/中/长程时序依赖。时序卷积在少样本下易过拟合,时序平移是零参数代价的替代方案。

3. 多模态知识蒸馏

  • 教师(冻结):训练好的 UMEG-Net
  • 学生:VideoMAEv2 特征提取器 + BiGRU
  • 蒸馏损失(未标注数据上计算):\(\mathcal{L}_{feat} = \frac{1}{T}\sum_t \|\mathbf{F}_{tch}^{(t)} - \mathbf{F}_{stu}^{(t)}\|_2^2\)
  • 推理时仅用学生,无需关键点检测

设计动机:利用大量未标注视频进行蒸馏,使 RGB 学生获得与图模型互补的视觉表示,同时摆脱对姿态估计的依赖。

损失函数 / 训练策略

  • 事件类型分类 + 事件定位联合训练
  • 前景类损失权重增大 5 倍(事件帧 <3%,严重不平衡)
  • AdamW 优化器,余弦退火
  • UMEG-Net:50 epochs,lr=0.001;蒸馏:50 epochs,lr=0.0001

实验关键数据

主实验

100-clip 少样本设置下 F1/Edit 分数对比

方法 F3Set F1 ShuttleSet F1 FineGym F1 FigureSkating F1 SoccerNet F1
E2E-Spot_800MF 13.3 54.6 53.1 42.7 43.1
F3ED 15.3 55.1 52.1 34.4 34.5
BlockGCN 18.3 59.4 49.1 48.2 43.3
UMEG-Net 31.7 64.0 54.4 49.6 44.8
UMEG-Net_distill 40.7 69.0 61.2 56.2 50.8

UMEG-Net 在所有 5 个数据集上对所有基线取得一致优势。UMEG-Net_distill 平均提升 +5.8% F1 和 +6.7% Edit。

消融实验

图实体组成的影响

图配置 F3Set F1 F3Set Edit ShuttleSet F1
pose*N 23.9 47.4 61.5
pose*N + court 26.1 46.7 61.5
pose*N + ball 30.2 48.1 62.5
pose*N + ball + court 31.7 49.2 64.0

时序模块配置

\(\Delta\) 配置 FineGym F1 FigureSkating F1
{1} 50.3 36.8
{1, 2} 49.8 45.3
{1, 2, 4} 54.4 49.6

全监督对比:UMEG-Net 在全监督下也具有竞争力(3/5 数据集超越 E2E-Spot)。

关键发现

  1. 球信息贡献最大(F1 +6.3),场地次之(+2.2)
  2. UMEG-Net 仅 2.2M 参数,所有方法中最少且性能最优
  3. 蒸馏显著优于自监督对比学习预训练(F3Set F1: 40.7 vs 29.1)
  4. k-clip 设置比传统 k-shot 更实际合理

亮点与洞察

  1. 问题定义精准:少样本 PES 是真实且重要的问题,帧级标注成本极高
  2. k-clip 比 k-shot 更合理:运动事件极短、连续、类型多,k-clip 更符合实际标注场景
  3. 无参数时序模块:零参数代价替代多尺度时序卷积,在少样本场景下减少过拟合
  4. 蒸馏利用未标注数据:优雅地利用领域数据

局限与展望

  1. 依赖关键点检测质量(虽蒸馏版不需要)
  2. 人-球连接方式需手动设计,缺乏通用性
  3. 多人场景(SoccerNet)提升相对较小
  4. UMEG-Net_distill 使用 VideoMAEv2(67.8M),远大于教师(2.2M)

相关工作与启发

  • E2E-Spot / T-DEED / F3ED:RGB 端到端 PES 代表方法
  • BlockGCN / STGCN++:骨架动作识别方法
  • TSM:时序平移模块的灵感来源
  • Hong et al.:花样滑冰中姿态蒸馏到 RGB 的先驱

评分

  • 新颖性: ⭐⭐⭐⭐ — 统一多实体图和无参数时序平移有好的创新
  • 实验充分度: ⭐⭐⭐⭐⭐ — 5 个数据集、全面消融、多种 k-clip 设置
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,分析深入
  • 实用价值: ⭐⭐⭐⭐⭐ — 少样本设置直接解决实际标注成本问题

相关论文