跳转至

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

会议: ICLR 2026
arXiv: 2505.11709
代码: https://github.com/apple/ml-egodex (有)
领域: 自动驾驶/机器人
关键词: egocentric video, dexterous manipulation, imitation learning, hand pose, dataset

一句话总结

Apple 使用 Vision Pro 采集了 829 小时的第一人称视频 + 3D 手部关节追踪数据(EgoDex),覆盖 194 种桌面操作任务,并在此数据集上系统评估了模仿学习策略(BC/DDPM/FM + Transformer),为灵巧操作的扩展训练提供了迄今最大规模的数据基础。

研究背景与动机

  1. 领域现状:机器人模仿学习面临严重的数据稀缺问题。不同于 NLP 和 2D 视觉有互联网规模的语料,灵巧操作(dexterous manipulation)缺乏大规模数据集。当前主流的数据采集方式是遥操作(teleoperation),如 Open X-Embodiment、DROID 等。
  2. 现有痛点:遥操作被物理硬件瓶颈限制,难以再扩展规模;数据与具体机器人硬件绑定,泛化性差。另一个选择是互联网野外视频(如 Ego4D),但缺少精确的 3D 手部姿态标注,无法用于训练灵巧操作策略。
  3. 核心矛盾:可扩展性 vs 标注精度——遥操作有精确动作标注但不可扩展,野外视频可扩展但缺少关键的灵巧标注。
  4. 本文要解决什么:构建一个既可被动扩展(passively scalable)、又具有精确 3D 手部关节标注的大规模数据集,同时建立标准化 benchmark 评估灵巧操作能力。
  5. 切入角度:利用 Apple Vision Pro 的多目摄像头 + 设备端 SLAM + ARKit 实时追踪手部 25 个关节的位置和朝向,在用户自然操作时即完成数据采集和标注。
  6. 核心 idea 一句话:用可穿戴 XR 设备被动采集的大规模第一人称视频+精确手部姿态数据,替代不可扩展的遥操作范式。

方法详解

整体框架

EgoDex 的核心贡献分两部分:

  1. 数据集构建:用 Vision Pro 采集 829 小时、90M 帧的第一人称视频 + 同步 3D 手部骨骼数据,覆盖 194 种桌面操作任务(338K 条轨迹)。
  2. Benchmark 评估:定义了两个评测任务——轨迹预测(trajectory prediction)和逆动力学(inverse dynamics),在 X-IL 框架下训练 Transformer 模型并做系统实验。

数据流:Vision Pro 录制 → 1080p@30Hz 视频 + 30Hz 骨骼关节 + 相机内外参 → 压缩存储(2TB)→ 训练/评估分割(99%/1%)。

关键设计

  1. 数据采集系统:
  2. 做什么:利用 Vision Pro + visionOS 2 + ARKit 采集自然操作数据
  3. 核心思路:佩戴者无需任何额外设备,正常操作物体即可。ARKit 利用设备端多目标定摄像头和 SLAM,实时追踪头部、手臂、手腕和每只手 25 个关节的 3D 位置和朝向。录制以 session 组织(10-15 分钟),内部由 pause/resume 标记 episode 边界。视频用现代编码压缩(原始 500TB → 2TB)。
  4. 设计动机:相比遥操作需要机器人+人类主动控制,Vision Pro 数据采集是"被动可扩展"的——在未来 XR 眼镜普及后可自然积累海量数据。相比 HaMeR 等后处理方式,设备端实时追踪利用已知内外参和多视角,精度更高。

  5. 动作表示(Action Representation):

  6. 做什么:将每帧动作编码为 48 维向量
  7. 核心思路:\(\mathbf{a}_t\) = 2 hands × (3D wrist position + 6D wrist orientation + 5 fingertips × 3D position) = 48 维。动作在当前相机坐标系下表达,采用相对轨迹(relative trajectory)。
  8. 设计动机:相比只取手腕位置(如 EgoMimic),加入每个指尖的 3D 位置才能捕获灵巧操作的精细信息。

  9. 任务设计与多样性:

  10. 做什么:194 种任务分为三类——可逆任务(reversible,互逆操作对)、免重置任务(reset-free,终态包含于初态分布)、重置任务(reset)
  11. 核心思路:可逆和免重置任务消除了耗时的环境重置步骤,提高采集效率。GPT-4 用于将采集者的元数据(任务名、描述、环境、物体)整合为结构化自然语言标注。
  12. 设计动机:与 DROID 相比,EgoDex 的动作动词分布更宽广——DROID 大量动词仅 <10 次出现,而 EgoDex 多数动词 >1000 次。

  13. Benchmark 设计:

  14. 做什么:定义两个标准评测——轨迹预测和逆动力学
  15. 轨迹预测\(f_\theta(\mathbf{o}_{0..t}, \mathbf{s}_{0..t}, l) = \hat{\mathbf{a}}_{t:t+H}\),给定图像序列、骨骼序列和语言描述,预测未来 H 步动作。
  16. 逆动力学:额外给定终点目标图像 \(\mathbf{o}_{t+H}\),预测中间轨迹。目标图像减少了多模态性。
  17. 评价指标采用 "Best of K":采样 K 次取最接近 GT 的预测,计算 12 个关键点(双手腕+10指尖)的平均 3D 欧氏距离。

损失函数 / 训练策略

  • 使用 X-IL 框架,训练 2 种架构 × 3 种策略 = 6 种模型:
  • 架构:Encoder-Decoder Transformer 和 Decoder-only Transformer
  • 策略:Behavior Cloning (BC, 确定性)、Denoising Diffusion (DDPM, 随机)、Flow Matching (FM, 随机)
  • 训练 50K 步,batch size 2048,8×A100 GPU
  • 共训练评估 14 个模型变体(含不同 horizon、目标条件、数据规模、模型大小)

实验关键数据

主实验

2 秒预测 horizon (H=60) 下的轨迹预测结果:

模型 Avg Dist (K=1) Avg Dist (K=10) Final Dist (K=1) Final Dist (K=10)
Dec + BC 0.045 0.045 0.062 0.062
Dec + DDPM 0.053 0.041 0.071 0.044
Dec + FM 0.052 0.040 0.071 0.043
EncDec + BC 0.044 0.044 0.060 0.060
EncDec + DDPM 0.052 0.039 0.071 0.043
EncDec + FM 0.051 0.038 0.070 0.041

消融实验

配置 Avg Dist (m) Final Dist (m) 说明
H=30 (1s) 0.031 0.049 短 horizon,最准
H=60 (2s) 0.045 0.062 默认 horizon
H=90 (3s) 0.053 0.069 长 horizon,误差增大
w/o goal image 0.045 0.062 无目标条件
w/ goal image 0.035 0.029 Final dist 降 53%
200M params 0.045 0.062 默认模型
500M params 0.045 0.062 增大模型无收益

关键发现

  • EncDec > Dec-only:编码器-解码器架构在所有策略下一致优于纯解码器,但差距不大。
  • BC vs 随机策略:BC 在 K=1 时最佳(确定性预测平均更好),但 FM/DDPM 在 K=5/10 时更优(能采样到更好的模式),FM 在 K=10 时比 BC 好 34%。
  • 目标图像大幅降低终点误差:视觉目标条件将 final distance 从 0.062 降至 0.029(↓53%),因为目标提供了轨迹终点的"锚",缓解了多模态性。
  • 性能随数据量扩展:性能随数据量增加而持续改善(对数线性关系),验证了 scaling hypothesis。
  • 500M 模型无差异:说明当前 200M 模型已足够,瓶颈不在模型容量而在数据。

亮点与洞察

  • 被动可扩展的数据范式:利用消费级 XR 设备采集操作数据,提出了机器人数据集的"ImageNet 时刻"路径——在 XR 眼镜普及后可自然积累数据。这种思路可迁移到任何需要大规模人类行为数据的领域(如手势识别、手语翻译)。
  • 可逆任务设计消除重置开销:通过设计互逆任务对(如插拔充电器),让一个任务的终态成为另一个的初态,大幅提高采集效率。这个 trick 可用于任何数据采集场景。
  • Best-of-K 评价指标:巧妙地解决了人类运动的固有多模态性问题——同一初始状态下存在多种合理轨迹,单一 GT 评价会惩罚正确但不同的预测。

局限性 / 可改进方向

  • 场景多样性有限:全部数据在桌面环境采集,缺少厨房、户外等多样场景。作者建议用图像生成模型做 visual augmentation。
  • 遮挡下标注不精确:折叠毛巾等重度遮挡场景下,ARKit 的手部追踪精度下降(本质上也是模型预测)。
  • 具身迁移 gap 未验证:论文未展示 human data → robot policy 的迁移实验,仅讨论了可能的方法(co-training、预训练+微调等)。这是最关键的缺环。
  • 对象交互建模缺失:只追踪手部姿态,缺少物体姿态和接触点标注,限制了学习手-物交互动力学的能力。

相关工作与启发

  • vs DROID(遥操作):DROID 有 76K 轨迹/86 任务/19M 帧,EgoDex 有 338K 轨迹/194 任务/90M 帧,规模上全面超越。但 DROID 的数据可直接用于机器人训练,EgoDex 需要跨具身迁移。
  • vs EgoMimic:最相似的工作,也用第一人称视频+手部追踪。但 EgoMimic 仅 4 小时数据且只追踪手腕位置,EgoDex 是 829 小时+全手指关节追踪,规模和精度均大幅提升。
  • vs Ego4D:Ego4D 有 3000 小时视频但无 3D 手部姿态标注且不聚焦操作任务,无法直接用于灵巧操作训练。

评分

  • 新颖性: ⭐⭐⭐⭐ 用 Vision Pro 做大规模灵巧操作数据采集在规模和质量上是首次,但"用可穿戴设备采集人类数据"的范式并非全新。
  • 实验充分度: ⭐⭐⭐⭐ 系统评估了 14 个模型变体、多个 ablation,但缺少关键的 robot transfer 实验。
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图表丰富,数据集对比表一目了然。
  • 价值: ⭐⭐⭐⭐⭐ 作为数据集论文,潜在影响力巨大——829 小时开源数据可推动整个灵巧操作领域发展。