EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding¶
会议: ECCV 2024 arXiv: 2406.08877 代码: GitHub 领域: 人体理解 关键词: 第一人称视觉, 全身动作理解, 健身数据集, 跨视角, 可解释动作评估
一句话总结¶
提出 EgoExo-Fitness 数据集,包含同步的第一人称和第三人称健身视频,提供两级时间边界标注和创新性的可解释动作评判标注(技术关键点验证、自然语言评论、质量评分),并构建五个基准任务。
研究背景与动机¶
设想戴上智能眼镜做健身运动,虚拟教练能告诉你做了什么、何时做的、做得怎么样。实现这一愿景需要第一人称全身动作理解(EgoFBAU)能力,但现有研究存在三大空白:
- 数据集视角单一:现有全身动作数据集(NTU-RGB+D、FineGym、FineDiving)几乎全部来自第三人称固定相机,限制了在灵活场景下的应用
- 第一人称数据集场景单一:现有第一人称数据集(Ego4D、EPIC-KITCHENS)主要聚焦桌面操作和日常交互,而非全身运动理解
- 缺乏可解释评判标注:现有动作质量评估数据集仅提供分数或排名,无法直接探究评判的可解释性(为什么得这个分)
EgoExo-Fitness 同时提供ego/exo视频+丰富标注,填补了上述空白。
方法详解¶
整体框架¶
EgoExo-Fitness 是一个数据集+基准贡献,核心包含三个部分: 1. 多视角录制系统设计与数据采集 2. 多层级丰富标注体系 3. 五个基准任务及实验分析
关键设计¶
1. 录制系统¶
第一人称(Ego):设计含三个运动相机的头戴设备: - Ego-M:GoPro 拍摄正前方 - Ego-L / Ego-R:两个 Insta-Go3 分别拍摄左下方和右下方,捕获更多身体细节
第三人称(Exo):三个固定相机分别位于参与者的正前方(Exo-M)、左前方(Exo-L)、右前方(Exo-R)
所有相机通过可见的计时事件手动同步。
2. 数据采集¶
- 12类健身动作:涵盖胸、腹、腰、臀、全身驱动肌群(跪姿俯卧撑、俯卧撑、仰卧起坐、高抬腿、开合跳等)
- 86个动作序列:随机组合3-6种不同动作,丰富时序多样性
- 自然采集:参与者仅获得文字指导,自然完成动作,每个动作至少重复4次
- 规模:1276个跨视角序列视频,6131个单次动作,总时长约32小时
3. 标注体系(核心创新)¶
两级时间边界标注: - 第1级:从动作序列视频中定位每个单独动作的起止时间 - 第2级:将单个动作视频分为三个子步骤——准备(Getting ready)、执行(Executing)、放松(Relaxing)
可解释动作评判标注(三层递进):
(1) 技术关键点验证: - 为每类动作提供文字指导(text guidance) - 用LLM将指导拆分为若干技术关键点 - 标注者逐一验证动作是否满足每个关键点(True/False)
(2) 自然语言评论: - 标注者基于关键点验证结果,撰写段落式评价 - 包含做得好的方面和改进建议
(3) 动作质量评分:1-5分主观评分,每个动作至少2位专家标注
4. 五个基准任务¶
- 动作分类:从单次动作视频预测健身动作类型
- 动作定位:时序动作检测
- 跨视角序列验证(CVSV):验证来自不同视角的两个视频是否执行相同动作序列(新提出)
- 跨视角技能评定:跨视角的动作质量评估
- 基于指导的执行验证(GEV):判断动作执行是否满足给定技术关键点(新提出)
损失函数 / 训练策略¶
作为数据集论文,本文重点在实验基准而非特定模型设计。基线模型包括 I3D、TimeSformer、EgoVLP 等预训练模型,以及序列验证专用模型 CAT。
实验关键数据¶
主实验 — 动作分类¶
| 训练数据 | 模型 | 预训练 | Exo测试↑ | Ego测试↑ |
|---|---|---|---|---|
| Exo | I3D | K400 | 0.9194 | 0.0927 |
| Ego | I3D | K400 | 0.1025 | 0.7469 |
| Ego&Exo | I3D | K400 | 0.8963 | 0.7266 |
| Exo | TSF | K600 | 0.9274 | 0.0836 |
| Ego | EgoVLP | Ego4D | 0.0887 | 0.7977 |
| Ego | TSF | EE4D | 0.1601 | 0.8000 |
跨视角序列验证¶
| 训练数据 | Ego-Ego AUC↑ | Exo-Exo AUC↑ | Exo-Ego AUC↑ |
|---|---|---|---|
| Exo-Exo | 0.532 | 0.800 | 0.577 |
| Ego-Ego | 0.803 | 0.487 | 0.480 |
| Exo-Ego | 0.761 | 0.813 | 0.744 |
| 全部 | 0.751 | 0.814 | 0.743 |
跨视角检索性能:Ego→Exo Rank-1仅0.296,mAP仅0.228,远低于同视角检索。
消融实验¶
预训练对视角影响:Kinetics预训练在Exo上最优(0.9274),Ego-Exo4D预训练在Ego上最优(0.8000),与预训练数据的视角一致
Ego训练数据占比实验:逐步减少ego训练数据(100%→70%→30%→0%),所有指标持续下降,表明有限ego数据下的跨视角学习是重要挑战
关键发现¶
- 巨大的视角鸿沟:仅用ego数据训练的模型在exo上几乎完全失效(<0.1),反之亦然
- 混合训练不总有效:混合ego+exo数据训练不一定带来提升,甚至可能在特定视角上造成性能下降
- Ego比Exo更难:模型在ego视频上准确率始终低于exo,因为ego视角下动作模式更相似且判别线索更少
- 跨视角序列验证极具挑战:ego-exo对的AUC(0.744)远低于同视角(ego-ego 0.803, exo-exo 0.814)
- 有限ego数据的困境:减少ego训练比例导致性能持续下降,实际中收集ego数据远比exo困难
亮点与洞察¶
- 可解释动作评判的首次系统标注:技术关键点验证+自然语言评论+质量评分的三级标注体系,为可解释动作评估开辟了新方向
- 跨视角序列验证的首次提出:扩展传统SV到跨视角场景,贴近智能穿戴设备的实际需求
- 下看ego相机的独到设计:除正前方外,左右下方两个相机捕获更多身体运动细节,弥补了正前方ego相机身体可见度不足的问题
- 动作序列设计:每段视频包含3-6种不同动作,天然支持动作定位和序列验证任务
局限性 / 可改进方向¶
- 数据集规模(32小时)相比 Ego-Exo4D(数百小时)较小
- 仅覆盖12类健身动作,运动多样性有限
- 手动同步相机可能引入微小时间偏差
- 基准实验主要使用现有模型,未提出针对跨视角问题的专用方法
- 可探索将技术关键点验证与大语言模型结合的多模态评估方案
相关工作与启发¶
- Ego-Exo4D:并行大规模ego-exo数据集,但EgoExo-Fitness聚焦健身场景且提供独特的关键点验证标注
- FLAG3D、FineDiving:exo-only全身动作数据集,缺乏ego视角
- Ego4D:大规模ego数据集但极少涉及全身运动理解
- CAT(序列验证模型):在跨视角场景下性能显著下降,说明需要新的跨视角时序建模方法
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首个ego-exo健身数据集+可解释动作评判标注
- 技术深度: ⭐⭐⭐ — 数据集贡献为主,方法创新有限
- 实验充分度: ⭐⭐⭐⭐⭐ — 5个任务+多维度分析+详尽的视角影响研究
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,统计可视化丰富