HandX: Scaling Bimanual Motion and Interaction Generation¶

会议: CVPR 2026
arXiv: 2603.28766
代码: https://handx-project.github.io
领域: 人体理解 / 动作生成
关键词: 双手运动生成, 灵巧手部交互, 运动捕捉数据集, 文本到运动, Scaling Law

一句话总结¶

构建了 HandX——一个统一的双手运动生成基础设施（包含 54.2 小时运动数据 + 48.5 万条细粒度文本标注），提出解耦式自动标注策略（运动学特征提取 + LLM 推理生成描述），并基准测试了扩散和自回归两种生成范式，展示了明确的数据和模型 scaling 趋势。

研究背景与动机¶

领域现状：人体运动生成在身体层面取得了显著进展（如 MDM、MotionDiffuse 等），但几乎所有方法都将手部视为刚体末端执行器，缺乏精细的手指关节表示。手部相关的数据集和度量标准同样匮乏——现有数据要么缺少手部细节（HumanML3D、InterAct），要么局限在物体操作场景（ARCTIC、H2O），且标注粒度粗糙。

现有痛点：1) 缺少包含精细手指动力学和双手协调的高保真运动数据；2) 不同数据源的骨架定义、帧率和标注协议不统一，难以合并使用；3) 大规模人工标注成本过高；4) 现有评估指标无法衡量手部运动保真度和双手协调质量。

核心矛盾：要生成逼真的双手运动需要大量高质量数据和精细标注，但高质量数据采集昂贵，人工标注无法扩展，且缺少统一的评估体系。

本文目标 建立一个涵盖数据、标注和评估的统一基础设施，支持高质量双手运动生成的研究。

切入角度：采用"整合 + 自采 + 自动标注"三步走策略解决数据问题，同时基准测试两种生成范式来研究 scaling 行为。

核心 idea：通过整合已有数据集、自采新动捕数据、解耦式 LLM 自动标注三管齐下构建大规模双手运动基础设施，并验证明确的 scaling 趋势。

方法详解¶

整体框架¶

HandX 包含三个层面的贡献：1) 数据层——整合 5 个已有数据集（GigaHands、HOT3D、ARCTIC、H2O、HoloAssist）并自采新动捕数据，统一为共享骨架表示，经质量过滤后获得 54.2 小时运动数据；2) 标注层——提出两阶段自动标注策略，先提取结构化运动学特征（接触事件、手指弯曲度等），再用 LLM 推理生成多粒度文本描述（48.5 万条）；3) 生成层——基准测试扩散模型和自回归模型两种范式，支持多种条件控制模式。

关键设计¶

统一数据整合与质量过滤:
- 功能：将异构数据源合并为一致的高质量训练集
- 核心思路：将所有序列转换为统一的骨架表示和坐标系。应用基于关节角速度的强度感知过滤器，移除占主导的静止或近静止片段，只保留有意义的交互动作。自采部分使用 36 相机 OptiTrack 光学动捕系统，每个演员佩戴 25 个反射标记点捕捉精细手指关节运动，通过估计关节中心+解剖约束优化重建手部骨架。
- 设计动机：现有数据集的运动表示不统一是合并使用的最大障碍。自采数据专门针对双手交互场景（如双手协调、手指间接触），填补了现有数据中的关键空白。
解耦式自动标注策略:
- 功能：以可扩展的方式生成细粒度、语义丰富的运动文本描述
- 核心思路：将"运动理解"与"语言生成"解耦为两个阶段。第一阶段提取结构化运动学描述子（手指弯曲度、手指-手掌距离、双手空间关系等），并通过时间演化分析生成事件（接触/分离/过度伸展等），组织为结构化 JSON 格式。第二阶段设计提示引导 LLM 生成五个粒度级别的文本描述（简要摘要 → 中等细节 → 全面描述），要求覆盖左手、右手和双手关系三个维度，并保持时间顺序。
- 设计动机：LLM 擅长语言推理和生成，但无法直接处理高维连续运动数据。通过先将运动转化为 LLM 能理解的结构化事件描述，再让 LLM 生成自然语言，既利用了 LLM 的语言能力又保证了标注的运动对齐性。多粒度设计增加了标注多样性。
双范式生成模型基准:
- 功能：对比扩散和自回归两类代表性生成范式在双手运动任务上的表现
- 核心思路：扩散模型使用坐标+旋转标量的联合表示，通过三路 cross-attention 分别处理左手、右手和双手交互文本描述（避免简单拼接导致左右手混淆），预测干净运动序列。自回归模型采用 FSQ（有限标量量化）将运动离散化为 token，使用文本前缀方式进行自回归 next-token 预测。扩散模型还支持多种推理时条件控制（动作补间、关键帧生成、手腕轨迹跟随、单手反应生成、长程生成）。
- 设计动机：三路 cross-attention 设计解决了简单拼接文本描述时模型将右手动作分配给左手的问题。FSQ 相比 VQ-VAE 有更好的 codebook 利用率和缩放行为。

损失函数 / 训练策略¶

扩散模型训练目标为直接预测干净信号（x-prediction），用标准去噪 MSE 损失。自回归模型的 tokenizer 训练使用重建损失 \(\|\mathbf{x} - \mathcal{D}(\hat{\mathbf{y}})\|_2^2\)，自回归部分使用标准交叉熵损失。提出接触精确率/召回率/F1 等手部交互专用指标，接触阈值设为 2cm。

实验关键数据¶

主实验 (扩散模型 Scaling)¶

数据比例	解码器层数	R-Prec Top1↑	FID↓	CF1↑
5%	4	0.142	2.574	0.523
5%	12	0.343	1.837	0.618
20%	12	0.357	1.140	0.606
100%	12	0.427	1.349	0.641
100%	16	0.382	1.675	0.624
Ground Truth	-	0.854	0.000	0.984

消融实验 (自回归模型 Scaling)¶

模型大小(M)	Codebook	R-Prec Top1↑	FID↓
4.63	512	0.366	8.377
26.33	1024	0.322	2.750
38.95	2048	0.305	3.245
215.31	4096	0.281	1.721

关键发现¶

扩散模型展现明确的 scaling 趋势：从 5% 到 100% 数据 + 从 4 层到 12 层解码器，R-Precision Top1 从 0.142 提升到 0.427（3x），接触 F1 从 0.523 提升到 0.641
16 层解码器反而不如 12 层，表明存在过拟合/优化困难
自回归模型中 codebook 大小和模型容量需要匹配缩放：单独扩大 codebook 而不增加模型容量会导致性能下降
FID 在最大模型+最大数据配置下取得最优（扩散 1.140，自回归 1.721），但与 Ground Truth 差距仍然很大

亮点与洞察¶

解耦式标注策略是本文最有价值的贡献——将运动特征提取和语言生成分离，让 LLM 只负责它擅长的语言推理部分，这个思路可以迁移到任何需要大规模标注的动作理解任务
三路 cross-attention 解决左右手混淆的设计简单有效，是双手运动生成的重要工程细节
首次系统性地展示了双手运动生成中的 scaling 行为，和 NLP/CV 领域的 scaling law 趋势一致
将生成的灵巧运动迁移到真实人形机器人上，展示了实际应用潜力

局限与展望¶

R-Precision Top1 最高仅 0.427（GT 为 0.854），生成质量与真实运动仍有很大差距
自采数据量相对有限，整合的外部数据在质量和一致性上可能存在问题
运动表示使用 3D 坐标而非旋转参数，可能限制了物理真实性
接触检测使用简单的距离阈值（2cm），未建模接触力学
评估指标虽然引入了接触 F1，但仍缺少对双手协同时序的评估

评分¶

新颖性: ⭐⭐⭐⭐ 统一基础设施 + 解耦标注策略设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 双范式对比、多尺度 scaling 分析、多种条件控制、机器人迁移
写作质量: ⭐⭐⭐⭐ 结构清晰，数据统计详尽
价值: ⭐⭐⭐⭐⭐ 填补双手运动生成基础设施空白，对社区有重要推动作用