EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding¶

会议: ECCV 2024 arXiv: 2406.08877 代码: GitHub 领域: 人体理解 关键词: 第一人称视觉, 全身动作理解, 健身数据集, 跨视角, 可解释动作评估

一句话总结¶

提出 EgoExo-Fitness 数据集，包含同步的第一人称和第三人称健身视频，提供两级时间边界标注和创新性的可解释动作评判标注（技术关键点验证、自然语言评论、质量评分），并构建五个基准任务。

研究背景与动机¶

设想戴上智能眼镜做健身运动，虚拟教练能告诉你做了什么、何时做的、做得怎么样。实现这一愿景需要第一人称全身动作理解（EgoFBAU）能力，但现有研究存在三大空白：

数据集视角单一：现有全身动作数据集（NTU-RGB+D、FineGym、FineDiving）几乎全部来自第三人称固定相机，限制了在灵活场景下的应用
第一人称数据集场景单一：现有第一人称数据集（Ego4D、EPIC-KITCHENS）主要聚焦桌面操作和日常交互，而非全身运动理解
缺乏可解释评判标注：现有动作质量评估数据集仅提供分数或排名，无法直接探究评判的可解释性（为什么得这个分）

EgoExo-Fitness 同时提供ego/exo视频+丰富标注，填补了上述空白。

方法详解¶

整体框架¶

EgoExo-Fitness 是一个数据集+基准贡献，核心包含三个部分： 1. 多视角录制系统设计与数据采集 2. 多层级丰富标注体系 3. 五个基准任务及实验分析

关键设计¶

1. 录制系统¶

第一人称（Ego）：设计含三个运动相机的头戴设备： - Ego-M：GoPro 拍摄正前方 - Ego-L / Ego-R：两个 Insta-Go3 分别拍摄左下方和右下方，捕获更多身体细节

第三人称（Exo）：三个固定相机分别位于参与者的正前方（Exo-M）、左前方（Exo-L）、右前方（Exo-R）

所有相机通过可见的计时事件手动同步。

2. 数据采集¶

12类健身动作：涵盖胸、腹、腰、臀、全身驱动肌群（跪姿俯卧撑、俯卧撑、仰卧起坐、高抬腿、开合跳等）
86个动作序列：随机组合3-6种不同动作，丰富时序多样性
自然采集：参与者仅获得文字指导，自然完成动作，每个动作至少重复4次
规模：1276个跨视角序列视频，6131个单次动作，总时长约32小时

3. 标注体系（核心创新）¶

两级时间边界标注： - 第1级：从动作序列视频中定位每个单独动作的起止时间 - 第2级：将单个动作视频分为三个子步骤——准备(Getting ready)、执行(Executing)、放松(Relaxing)

可解释动作评判标注（三层递进）：

(1) 技术关键点验证： - 为每类动作提供文字指导（text guidance） - 用LLM将指导拆分为若干技术关键点 - 标注者逐一验证动作是否满足每个关键点（True/False）

(2) 自然语言评论： - 标注者基于关键点验证结果，撰写段落式评价 - 包含做得好的方面和改进建议

(3) 动作质量评分：1-5分主观评分，每个动作至少2位专家标注

4. 五个基准任务¶

动作分类：从单次动作视频预测健身动作类型
动作定位：时序动作检测
跨视角序列验证（CVSV）：验证来自不同视角的两个视频是否执行相同动作序列（新提出）
跨视角技能评定：跨视角的动作质量评估
基于指导的执行验证（GEV）：判断动作执行是否满足给定技术关键点（新提出）

损失函数 / 训练策略¶

作为数据集论文，本文重点在实验基准而非特定模型设计。基线模型包括 I3D、TimeSformer、EgoVLP 等预训练模型，以及序列验证专用模型 CAT。

实验关键数据¶

主实验 — 动作分类¶

训练数据	模型	预训练	Exo测试↑	Ego测试↑
Exo	I3D	K400	0.9194	0.0927
Ego	I3D	K400	0.1025	0.7469
Ego&Exo	I3D	K400	0.8963	0.7266
Exo	TSF	K600	0.9274	0.0836
Ego	EgoVLP	Ego4D	0.0887	0.7977
Ego	TSF	EE4D	0.1601	0.8000

跨视角序列验证¶

训练数据	Ego-Ego AUC↑	Exo-Exo AUC↑	Exo-Ego AUC↑
Exo-Exo	0.532	0.800	0.577
Ego-Ego	0.803	0.487	0.480
Exo-Ego	0.761	0.813	0.744
全部	0.751	0.814	0.743

跨视角检索性能：Ego→Exo Rank-1仅0.296，mAP仅0.228，远低于同视角检索。

消融实验¶

预训练对视角影响：Kinetics预训练在Exo上最优（0.9274），Ego-Exo4D预训练在Ego上最优（0.8000），与预训练数据的视角一致

Ego训练数据占比实验：逐步减少ego训练数据（100%→70%→30%→0%），所有指标持续下降，表明有限ego数据下的跨视角学习是重要挑战

关键发现¶

巨大的视角鸿沟：仅用ego数据训练的模型在exo上几乎完全失效（<0.1），反之亦然
混合训练不总有效：混合ego+exo数据训练不一定带来提升，甚至可能在特定视角上造成性能下降
Ego比Exo更难：模型在ego视频上准确率始终低于exo，因为ego视角下动作模式更相似且判别线索更少
跨视角序列验证极具挑战：ego-exo对的AUC（0.744）远低于同视角（ego-ego 0.803, exo-exo 0.814）
有限ego数据的困境：减少ego训练比例导致性能持续下降，实际中收集ego数据远比exo困难

亮点与洞察¶

可解释动作评判的首次系统标注：技术关键点验证+自然语言评论+质量评分的三级标注体系，为可解释动作评估开辟了新方向
跨视角序列验证的首次提出：扩展传统SV到跨视角场景，贴近智能穿戴设备的实际需求
下看ego相机的独到设计：除正前方外，左右下方两个相机捕获更多身体运动细节，弥补了正前方ego相机身体可见度不足的问题
动作序列设计：每段视频包含3-6种不同动作，天然支持动作定位和序列验证任务

局限性 / 可改进方向¶

数据集规模（32小时）相比 Ego-Exo4D（数百小时）较小
仅覆盖12类健身动作，运动多样性有限
手动同步相机可能引入微小时间偏差
基准实验主要使用现有模型，未提出针对跨视角问题的专用方法
可探索将技术关键点验证与大语言模型结合的多模态评估方案

评分¶

新颖性: ⭐⭐⭐⭐ — 首个ego-exo健身数据集+可解释动作评判标注
技术深度: ⭐⭐⭐ — 数据集贡献为主，方法创新有限
实验充分度: ⭐⭐⭐⭐⭐ — 5个任务+多维度分析+详尽的视角影响研究
写作质量: ⭐⭐⭐⭐ — 结构清晰，统计可视化丰富