跳转至

Dexterous Manipulation Transfer via Progressive Kinematic-Dynamic Alignment

会议: AAAI2026
arXiv: 2511.10987
代码: 待确认
领域: human_understanding
关键词: dexterous manipulation, motion retargeting, reinforcement learning, hand-object interaction, sim-to-real transfer

一句话总结

提出 PKDA 框架,通过渐进式运动学-动力学对齐,将人手操作视频自动转化为多指灵巧手的高质量操作轨迹,平均迁移成功率达 73%。

背景与动机

多指灵巧机械手的操作数据极度稀缺,严重制约了数据驱动的灵巧操作策略学习。现有数据采集方式面临以下困境:

  • 真实硬件采集:成本高、流程复杂、难以规模化
  • 纯运动学映射(如 Anyteleop):只做手指位置映射,缺乏接触动力学优化,无法抵抗惯性扰动,抓取成功率极低(仅 12.5%)
  • 纯强化学习方法(如 D-Grasp):探索效率低,奖励设计依赖任务,泛化能力受限
  • 在线遥操作:需要昂贵设备和人类实时视觉反馈,难以大规模部署

核心动机是:能否仅从人手操作的 RGB 视频出发,自动将操作技能迁移到不同构型的灵巧手上,同时保证运动学拟合和物理交互的稳定性?

核心问题

  1. 结构差异:人手与机器人手在关节自由度、手指长度、运动学拓扑上存在显著差异,如何做准确的运动重定向?
  2. 接触动力学:简单的姿态映射无法传递力闭合和动态接触策略,在扰动下抓取不稳定
  3. 任务多样性:不同操作任务(抓取、倒水、盖章等)的奖励设计难以统一,限制了优化框架的泛化能力

方法详解

PKDA 将灵巧操作迁移建模为四阶段任务,对应四个模块:

1. Interaction Perceptor(交互感知器)

从人手操作视频中提取关键交互信息:

  • 手部轨迹 \(H = \{h_1, \dots, h_T\}\):指尖空间位置(15D)+ 手掌朝向(3D)
  • 物体轨迹 \(O = \{o_1, \dots, o_T\}\):物体质心 3D 位置 + 3D 朝向
  • 接触点 \(C = \{c_1, \dots, c_N\}\)\(N \in \{2,3,4,5\}\) 个指尖接触点的 3D 坐标

对于已知物体模型的场景使用 HFL-Net 估计手-物体姿态;对于未知模型场景则使用 Hold 联合重建 3D 几何,并通过凸分解优化处理遮挡导致的网格缺陷。

2. Trajectory Proposer(轨迹生成器)

将人手轨迹映射为灵巧手关节角序列,核心是一个非线性优化问题:

\[\min_{\mathbf{q}_t} \left( w_f E_f + w_o E_o + w_s E_s \right)\]
  • \(E_f\):指尖位置约束——在世界坐标系下对齐指尖绝对位置(而非传统的指尖-手腕向量),将指尖定位与手腕对齐解耦,降低形态差异的敏感性
  • \(E_o\):手掌朝向约束——通过测地距离度量手掌法向量的匹配程度
  • \(E_s\):时间平滑约束——抑制相邻帧间的关节角突变

优化得到的关节角序列通过逆动力学方法转换为控制信号 \(A_{primary}\)

3. ContactAdapt Optimizer(接触自适应优化器)

这是本文最核心的模块,使用强化学习优化抓取动力学,包含三个关键设计:

(a)RL-Configurator(统一任务配置器)

  • 拇指引导的预抓取初始化:选择手-物未接触且拇指最接近对应抓取点的状态作为 RL 初始状态。实验表明,拇指引导比食指引导 TSR 高 7.5%,比中指引导高 10%
  • 统一目标设定:将所有操作任务的初始阶段抽象为"拾取"——目标是将物体带到首次偏离初始位置 0.1m 的姿态

(b)Action Space Rescaling(动作空间重缩放)

  • 将手腕关节运动范围从全局工作空间压缩到预抓取姿态的局部邻域 \(\mathcal{N}(\hat{q}_{pre}, \rho)\)
  • 手指关节保持全范围运动
  • 消融实验显示:去掉此机制 TSR 从 77.5% 骤降至 37.5%,是最关键的设计

(c)层次化统一奖励

  • 接近奖励 \(r_{approach}\):引导指尖趋近目标接触点
  • 抓取奖励 \(r_{grasp}\):当所有指尖进入接触容差范围(\(\varepsilon = 0.06\)m)时激活,包含接触奖励和姿态模仿奖励
  • 提升奖励 \(r_{lift}\):当拇指和至少一个辅助手指接触物体时激活,分段设计——低于 0.02m 线性奖励基本提升,高于 0.02m 转入姿态调整

4. Wrist Trajectory Planner(手腕轨迹规划器)

以物体动态姿态变化为引导,基于无相对滑动假设计算手腕轨迹:

\[T_t = o_t \cdot (T_{grasp}^{-1} \cdot o_{grasp})^{-1}\]

通过 PD 控制器驱动手腕运动,保持操作的语义一致性(如"抬起-倾斜-放下"的完整动作意图)。

实验关键数据

实验在三种场景下验证,使用 Adroit Hand、Allegro Hand 和 Leap Hand 三种灵巧手:

方法 SR Grasp↑ SR Follow↑ TSR↑
Anyteleop 12.5% 7.5% 7.5%
PGDM 72.5% 72.5% 72.5%
D-Grasp 62.5% 60% 57.5%
PKDA(40 序列) 80% 80% 77.5%
PKDA(600 序列) 84.2% 77.6% 73.3%

跨灵巧手泛化:Adroit 77.5% / Allegro 72.5% / Leap 67.5% TSR,位置误差和旋转误差保持一致(0.054–0.058m,31°–33°)。

感知鲁棒性:在姿态估计误差和物体重建缺陷条件下,成功率不低于 70%。

学习效率:相比 PGDM 和 D-Grasp,PKDA 在训练步数上收敛更快(Fig.4)。

消融实验核心结论

  • 指尖绝对位置重定向 vs 指尖-手腕向量:前者 TSR 高 7.5%
  • 动作空间重缩放:去掉后 TSR 从 77.5% 降到 37.5%(最关键组件)
  • 拇指引导 vs 食指/中指引导:分别高 7.5% / 10%

真实世界验证:在 UR10 机械臂 + Leap Hand 上成功完成摇晃、倒水、盖章三个任务,仿真轨迹直接开环执行。

亮点

  1. 运动学-动力学协同:将运动学映射作为 RL 的高质量初始化和探索方向约束,RL 反过来优化接触动力学,两者相辅相成
  2. 零任务特定调参:整个迁移过程不需要针对具体任务调整参数,对不同灵巧手配置只需指定手指对应关系
  3. 动作空间重缩放设计精巧:压缩手腕空间、释放手指空间,有效抑制过冲行为,消融实验证明其贡献最大
  4. 完整端到端流水线:从原始视频到仿真控制信号再到真实机器人部署,覆盖感知、规划、优化全链路
  5. 新评价指标 TSR:基于 DTW 的语义级动作意图相似度度量,关注操作意图而非逐帧轨迹复现

局限性 / 可改进方向

  • 主要处理稳定接触模式,对动态多接触变化(如指间翻转、滚动操作)尚未涉及
  • 手腕轨迹规划假设抓取后无相对滑动,限制了对需要指内操作的任务的适用性
  • 未考虑触觉反馈信息,加入触觉传感可能进一步提升接触优化质量
  • 真实世界验证仅用开环控制,闭环反馈可提升鲁棒性
  • 跨手泛化时大型灵巧手在小物体上成功率下降,手指-物体尺度适配仍需改进

与相关工作的对比

方法类别 代表工作 优势 劣势
纯运动学映射 Anyteleop, DexMV 实现简单、速度快 无动力学优化,无法抵抗扰动
纯 RL D-Grasp, PGDM 可探索复杂交互 探索效率低,奖励设计任务相关
运动学 + RL PKDA(本文) 高效、泛化、无需任务特定调参 仅限稳定接触模式
在线遥操作 DexCap, AnyTeleop-RT 实时人类反馈 成本高,不可规模化

与 PGDM 相比:PGDM 将物体轨迹作为强约束精确复现,牺牲效率换精度;PKDA 优先迁移操作意图,仅优化抓取阶段用 RL,其余用 PD 控制,效率显著更高。

启发与关联

  • 运动学引导 RL 探索的范式具有通用价值:在高维动作空间中,先用简单映射确定可行域再用 RL 精调,可大幅提升样本效率
  • 动作空间重缩放的思路可推广到其他机器人学习任务:针对不同关节的运动特性分区压缩/释放动作空间
  • 与 dexterous manipulation 的 foundation model 方向互补:PKDA 提供高效数据生成管线,可为大规模策略预训练提供数据源
  • 拇指优先的接触策略设计反映了人类抓取的生物力学规律,可启发仿生灵巧手的控制架构设计

评分

  • 新颖性: ⭐⭐⭐⭐ — 运动学-动力学渐进对齐的框架设计和动作空间重缩放是新颖贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ — 三种灵巧手、三种场景、多个 baseline、完整消融、真实机器人验证
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,模块化表述便于理解,但部分公式符号较密集
  • 价值: ⭐⭐⭐⭐ — 提供了实用的灵巧操作数据生成方案,对数据驱动的机器人操作研究有直接推动