跳转至

EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding

会议: ECCV 2024 arXiv: 2406.08877 代码: GitHub 领域: 人体理解 关键词: 第一人称视觉, 全身动作理解, 健身数据集, 跨视角, 可解释动作评估

一句话总结

提出 EgoExo-Fitness 数据集,包含同步的第一人称和第三人称健身视频,提供两级时间边界标注和创新性的可解释动作评判标注(技术关键点验证、自然语言评论、质量评分),并构建五个基准任务。

研究背景与动机

设想戴上智能眼镜做健身运动,虚拟教练能告诉你做了什么、何时做的、做得怎么样。实现这一愿景需要第一人称全身动作理解(EgoFBAU)能力,但现有研究存在三大空白:

  1. 数据集视角单一:现有全身动作数据集(NTU-RGB+D、FineGym、FineDiving)几乎全部来自第三人称固定相机,限制了在灵活场景下的应用
  2. 第一人称数据集场景单一:现有第一人称数据集(Ego4D、EPIC-KITCHENS)主要聚焦桌面操作和日常交互,而非全身运动理解
  3. 缺乏可解释评判标注:现有动作质量评估数据集仅提供分数或排名,无法直接探究评判的可解释性(为什么得这个分)

EgoExo-Fitness 同时提供ego/exo视频+丰富标注,填补了上述空白。

方法详解

整体框架

EgoExo-Fitness 是一个数据集+基准贡献,核心包含三个部分: 1. 多视角录制系统设计与数据采集 2. 多层级丰富标注体系 3. 五个基准任务及实验分析

关键设计

1. 录制系统

第一人称(Ego):设计含三个运动相机的头戴设备: - Ego-M:GoPro 拍摄正前方 - Ego-L / Ego-R:两个 Insta-Go3 分别拍摄左下方和右下方,捕获更多身体细节

第三人称(Exo):三个固定相机分别位于参与者的正前方(Exo-M)、左前方(Exo-L)、右前方(Exo-R)

所有相机通过可见的计时事件手动同步。

2. 数据采集

  • 12类健身动作:涵盖胸、腹、腰、臀、全身驱动肌群(跪姿俯卧撑、俯卧撑、仰卧起坐、高抬腿、开合跳等)
  • 86个动作序列:随机组合3-6种不同动作,丰富时序多样性
  • 自然采集:参与者仅获得文字指导,自然完成动作,每个动作至少重复4次
  • 规模:1276个跨视角序列视频,6131个单次动作,总时长约32小时

3. 标注体系(核心创新)

两级时间边界标注: - 第1级:从动作序列视频中定位每个单独动作的起止时间 - 第2级:将单个动作视频分为三个子步骤——准备(Getting ready)、执行(Executing)、放松(Relaxing)

可解释动作评判标注(三层递进):

(1) 技术关键点验证: - 为每类动作提供文字指导(text guidance) - 用LLM将指导拆分为若干技术关键点 - 标注者逐一验证动作是否满足每个关键点(True/False)

(2) 自然语言评论: - 标注者基于关键点验证结果,撰写段落式评价 - 包含做得好的方面和改进建议

(3) 动作质量评分:1-5分主观评分,每个动作至少2位专家标注

4. 五个基准任务

  1. 动作分类:从单次动作视频预测健身动作类型
  2. 动作定位:时序动作检测
  3. 跨视角序列验证(CVSV):验证来自不同视角的两个视频是否执行相同动作序列(新提出)
  4. 跨视角技能评定:跨视角的动作质量评估
  5. 基于指导的执行验证(GEV):判断动作执行是否满足给定技术关键点(新提出)

损失函数 / 训练策略

作为数据集论文,本文重点在实验基准而非特定模型设计。基线模型包括 I3D、TimeSformer、EgoVLP 等预训练模型,以及序列验证专用模型 CAT。

实验关键数据

主实验 — 动作分类

训练数据 模型 预训练 Exo测试↑ Ego测试↑
Exo I3D K400 0.9194 0.0927
Ego I3D K400 0.1025 0.7469
Ego&Exo I3D K400 0.8963 0.7266
Exo TSF K600 0.9274 0.0836
Ego EgoVLP Ego4D 0.0887 0.7977
Ego TSF EE4D 0.1601 0.8000

跨视角序列验证

训练数据 Ego-Ego AUC↑ Exo-Exo AUC↑ Exo-Ego AUC↑
Exo-Exo 0.532 0.800 0.577
Ego-Ego 0.803 0.487 0.480
Exo-Ego 0.761 0.813 0.744
全部 0.751 0.814 0.743

跨视角检索性能:Ego→Exo Rank-1仅0.296,mAP仅0.228,远低于同视角检索。

消融实验

预训练对视角影响:Kinetics预训练在Exo上最优(0.9274),Ego-Exo4D预训练在Ego上最优(0.8000),与预训练数据的视角一致

Ego训练数据占比实验:逐步减少ego训练数据(100%→70%→30%→0%),所有指标持续下降,表明有限ego数据下的跨视角学习是重要挑战

关键发现

  1. 巨大的视角鸿沟:仅用ego数据训练的模型在exo上几乎完全失效(<0.1),反之亦然
  2. 混合训练不总有效:混合ego+exo数据训练不一定带来提升,甚至可能在特定视角上造成性能下降
  3. Ego比Exo更难:模型在ego视频上准确率始终低于exo,因为ego视角下动作模式更相似且判别线索更少
  4. 跨视角序列验证极具挑战:ego-exo对的AUC(0.744)远低于同视角(ego-ego 0.803, exo-exo 0.814)
  5. 有限ego数据的困境:减少ego训练比例导致性能持续下降,实际中收集ego数据远比exo困难

亮点与洞察

  1. 可解释动作评判的首次系统标注:技术关键点验证+自然语言评论+质量评分的三级标注体系,为可解释动作评估开辟了新方向
  2. 跨视角序列验证的首次提出:扩展传统SV到跨视角场景,贴近智能穿戴设备的实际需求
  3. 下看ego相机的独到设计:除正前方外,左右下方两个相机捕获更多身体运动细节,弥补了正前方ego相机身体可见度不足的问题
  4. 动作序列设计:每段视频包含3-6种不同动作,天然支持动作定位和序列验证任务

局限性 / 可改进方向

  • 数据集规模(32小时)相比 Ego-Exo4D(数百小时)较小
  • 仅覆盖12类健身动作,运动多样性有限
  • 手动同步相机可能引入微小时间偏差
  • 基准实验主要使用现有模型,未提出针对跨视角问题的专用方法
  • 可探索将技术关键点验证与大语言模型结合的多模态评估方案

相关工作与启发

  • Ego-Exo4D:并行大规模ego-exo数据集,但EgoExo-Fitness聚焦健身场景且提供独特的关键点验证标注
  • FLAG3D、FineDiving:exo-only全身动作数据集,缺乏ego视角
  • Ego4D:大规模ego数据集但极少涉及全身运动理解
  • CAT(序列验证模型):在跨视角场景下性能显著下降,说明需要新的跨视角时序建模方法

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个ego-exo健身数据集+可解释动作评判标注
  • 技术深度: ⭐⭐⭐ — 数据集贡献为主,方法创新有限
  • 实验充分度: ⭐⭐⭐⭐⭐ — 5个任务+多维度分析+详尽的视角影响研究
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,统计可视化丰富