跳转至

HandX: Scaling Bimanual Motion and Interaction Generation

会议: CVPR 2026
arXiv: 2603.28766
代码: https://handx-project.github.io
领域: 人体理解 / 动作生成
关键词: 双手运动生成, 灵巧手部交互, 运动捕捉数据集, 文本到运动, Scaling Law

一句话总结

构建了 HandX——一个统一的双手运动生成基础设施(包含 54.2 小时运动数据 + 48.5 万条细粒度文本标注),提出解耦式自动标注策略(运动学特征提取 + LLM 推理生成描述),并基准测试了扩散和自回归两种生成范式,展示了明确的数据和模型 scaling 趋势。

研究背景与动机

领域现状:人体运动生成在身体层面取得了显著进展(如 MDM、MotionDiffuse 等),但几乎所有方法都将手部视为刚体末端执行器,缺乏精细的手指关节表示。手部相关的数据集和度量标准同样匮乏——现有数据要么缺少手部细节(HumanML3D、InterAct),要么局限在物体操作场景(ARCTIC、H2O),且标注粒度粗糙。

现有痛点:1) 缺少包含精细手指动力学和双手协调的高保真运动数据;2) 不同数据源的骨架定义、帧率和标注协议不统一,难以合并使用;3) 大规模人工标注成本过高;4) 现有评估指标无法衡量手部运动保真度和双手协调质量。

核心矛盾:要生成逼真的双手运动需要大量高质量数据和精细标注,但高质量数据采集昂贵,人工标注无法扩展,且缺少统一的评估体系。

本文目标 建立一个涵盖数据、标注和评估的统一基础设施,支持高质量双手运动生成的研究。

切入角度:采用"整合 + 自采 + 自动标注"三步走策略解决数据问题,同时基准测试两种生成范式来研究 scaling 行为。

核心 idea:通过整合已有数据集、自采新动捕数据、解耦式 LLM 自动标注三管齐下构建大规模双手运动基础设施,并验证明确的 scaling 趋势。

方法详解

整体框架

HandX 包含三个层面的贡献:1) 数据层——整合 5 个已有数据集(GigaHands、HOT3D、ARCTIC、H2O、HoloAssist)并自采新动捕数据,统一为共享骨架表示,经质量过滤后获得 54.2 小时运动数据;2) 标注层——提出两阶段自动标注策略,先提取结构化运动学特征(接触事件、手指弯曲度等),再用 LLM 推理生成多粒度文本描述(48.5 万条);3) 生成层——基准测试扩散模型和自回归模型两种范式,支持多种条件控制模式。

关键设计

  1. 统一数据整合与质量过滤:

    • 功能:将异构数据源合并为一致的高质量训练集
    • 核心思路:将所有序列转换为统一的骨架表示和坐标系。应用基于关节角速度的强度感知过滤器,移除占主导的静止或近静止片段,只保留有意义的交互动作。自采部分使用 36 相机 OptiTrack 光学动捕系统,每个演员佩戴 25 个反射标记点捕捉精细手指关节运动,通过估计关节中心+解剖约束优化重建手部骨架。
    • 设计动机:现有数据集的运动表示不统一是合并使用的最大障碍。自采数据专门针对双手交互场景(如双手协调、手指间接触),填补了现有数据中的关键空白。
  2. 解耦式自动标注策略:

    • 功能:以可扩展的方式生成细粒度、语义丰富的运动文本描述
    • 核心思路:将"运动理解"与"语言生成"解耦为两个阶段。第一阶段提取结构化运动学描述子(手指弯曲度、手指-手掌距离、双手空间关系等),并通过时间演化分析生成事件(接触/分离/过度伸展等),组织为结构化 JSON 格式。第二阶段设计提示引导 LLM 生成五个粒度级别的文本描述(简要摘要 → 中等细节 → 全面描述),要求覆盖左手、右手和双手关系三个维度,并保持时间顺序。
    • 设计动机:LLM 擅长语言推理和生成,但无法直接处理高维连续运动数据。通过先将运动转化为 LLM 能理解的结构化事件描述,再让 LLM 生成自然语言,既利用了 LLM 的语言能力又保证了标注的运动对齐性。多粒度设计增加了标注多样性。
  3. 双范式生成模型基准:

    • 功能:对比扩散和自回归两类代表性生成范式在双手运动任务上的表现
    • 核心思路:扩散模型使用坐标+旋转标量的联合表示,通过三路 cross-attention 分别处理左手、右手和双手交互文本描述(避免简单拼接导致左右手混淆),预测干净运动序列。自回归模型采用 FSQ(有限标量量化)将运动离散化为 token,使用文本前缀方式进行自回归 next-token 预测。扩散模型还支持多种推理时条件控制(动作补间、关键帧生成、手腕轨迹跟随、单手反应生成、长程生成)。
    • 设计动机:三路 cross-attention 设计解决了简单拼接文本描述时模型将右手动作分配给左手的问题。FSQ 相比 VQ-VAE 有更好的 codebook 利用率和缩放行为。

损失函数 / 训练策略

扩散模型训练目标为直接预测干净信号(x-prediction),用标准去噪 MSE 损失。自回归模型的 tokenizer 训练使用重建损失 \(\|\mathbf{x} - \mathcal{D}(\hat{\mathbf{y}})\|_2^2\),自回归部分使用标准交叉熵损失。提出接触精确率/召回率/F1 等手部交互专用指标,接触阈值设为 2cm。

实验关键数据

主实验 (扩散模型 Scaling)

数据比例 解码器层数 R-Prec Top1↑ FID↓ CF1↑
5% 4 0.142 2.574 0.523
5% 12 0.343 1.837 0.618
20% 12 0.357 1.140 0.606
100% 12 0.427 1.349 0.641
100% 16 0.382 1.675 0.624
Ground Truth - 0.854 0.000 0.984

消融实验 (自回归模型 Scaling)

模型大小(M) Codebook R-Prec Top1↑ FID↓
4.63 512 0.366 8.377
26.33 1024 0.322 2.750
38.95 2048 0.305 3.245
215.31 4096 0.281 1.721

关键发现

  • 扩散模型展现明确的 scaling 趋势:从 5% 到 100% 数据 + 从 4 层到 12 层解码器,R-Precision Top1 从 0.142 提升到 0.427(3x),接触 F1 从 0.523 提升到 0.641
  • 16 层解码器反而不如 12 层,表明存在过拟合/优化困难
  • 自回归模型中 codebook 大小和模型容量需要匹配缩放:单独扩大 codebook 而不增加模型容量会导致性能下降
  • FID 在最大模型+最大数据配置下取得最优(扩散 1.140,自回归 1.721),但与 Ground Truth 差距仍然很大

亮点与洞察

  • 解耦式标注策略是本文最有价值的贡献——将运动特征提取和语言生成分离,让 LLM 只负责它擅长的语言推理部分,这个思路可以迁移到任何需要大规模标注的动作理解任务
  • 三路 cross-attention 解决左右手混淆的设计简单有效,是双手运动生成的重要工程细节
  • 首次系统性地展示了双手运动生成中的 scaling 行为,和 NLP/CV 领域的 scaling law 趋势一致
  • 将生成的灵巧运动迁移到真实人形机器人上,展示了实际应用潜力

局限与展望

  • R-Precision Top1 最高仅 0.427(GT 为 0.854),生成质量与真实运动仍有很大差距
  • 自采数据量相对有限,整合的外部数据在质量和一致性上可能存在问题
  • 运动表示使用 3D 坐标而非旋转参数,可能限制了物理真实性
  • 接触检测使用简单的距离阈值(2cm),未建模接触力学
  • 评估指标虽然引入了接触 F1,但仍缺少对双手协同时序的评估

相关工作与启发

  • vs BOTH2Hands: BOTH2Hands 提供 8.31 小时双手运动,但标注粗糙。HandX 规模大 6.5x 且标注细粒度多层次
  • vs CLUTCH: CLUTCH 从野外视频重建手部运动,标注为动作级别。HandX 使用动捕系统获取高精度数据,标注覆盖手指级细节
  • vs Motion-X: Motion-X 是全身运动数据集但手部标注粗糙。HandX 专注手部,填补了手部运动生成的数据空白

评分

  • 新颖性: ⭐⭐⭐⭐ 统一基础设施 + 解耦标注策略设计新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 双范式对比、多尺度 scaling 分析、多种条件控制、机器人迁移
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据统计详尽
  • 价值: ⭐⭐⭐⭐⭐ 填补双手运动生成基础设施空白,对社区有重要推动作用

相关论文