Learning Cross-Hand Policies of High-DOF Reaching and Grasping¶

会议: ECCV 2024
arXiv: 2404.09150
代码: 无
领域: 人体理解
关键词: 灵巧抓取, 策略迁移, 跨手型泛化, Transformer, 交互等分面

一句话总结¶

提出一种两阶段层次化框架，通过语义关键点和交互等分面（IBS）作为手型无关的状态表示，结合Transformer策略网络和手型特定的适配模型，实现了灵巧抓取策略在不同高自由度机械手之间的零样本迁移。

研究背景与动机¶

机器人"伸手-抓取"是操控领域的基础技能。现有学习方法通常只为单一夹爪训练模型，换用其他夹爪时需重新收集数据并从头训练，代价高昂。尽管已有工作探索了跨物体的泛化能力，但跨灵巧手型的策略迁移几乎未被研究。

现有跨手型抓取方法（如UniGrasp、GenDexGrasp等）大多只生成静态抓取姿态，无法在执行过程中动态调整。本文的核心假设是：不同灵巧手的抓取技能存在共性，限制泛化能力的是状态和动作的表示方式，而非技能本身。因此，关键挑战在于找到一种手型无关的几何表示，以消除两个因素的影响：

手型形态差异：不同手的关节空间维度和拓扑结构差异显著

手型几何差异：点云/图像等表示可能导致策略过拟合于特定手型的几何外观

方法详解¶

整体框架¶

方法采用两阶段层次化模型：

统一策略模型（Unified Policy Model）：在所有手型间共享，输入手型无关的特征，预测语义关键点的位移
手型特定适配模型（Specific Adaptation Model）：将关键点位移转换为具体手型的关节角变化

模块	输入	输出	特点
手型无关特征提取	场景点云 + 手型配置	IBS点特征 + 语义关键点	统一表示，不依赖特定手型
统一策略模型	IBS + 语义关键点	关键点位移 + 全局平移/旋转 + 停止信号	Transformer架构，手型间共享
适配模型	关键点位移 + 当前关节角	关节角变化	轻量MLP，每种手型单独训练

关键设计¶

1. 语义关键点（Semantic Key Points）

受动画系统中IK Rig的启发，在每根手指上选取两个语义关键点（指尖点和中间指节点），加上手掌根部点，构建手型无关的状态表示。关键点位置通过正向运动学计算，定义在手型局部坐标系中。完整语义关键点输入包含 \(6(K+1)\) 维，其中 \(K\) 为手指数量。

2. 交互等分面（IBS）

IBS是手型与场景之间的Voronoi图，编码了两者的空间交互关系。通过在手掌中心周围的球形区域内体素化计算近似IBS点，下采样到4096个点作为网络输入。每个IBS点包含丰富的特征：坐标、到场景的距离、到手型的距离、前景指示器、手型部件归属的one-hot编码、以及手型表面朝向指示器。

3. Transformer策略网络

网络由三部分组成： - 逐指编码器：使用MLP和PointNet分别对每根手指的语义点和IBS点进行编码 - Transformer编码器：通过自注意力机制融合不同手指和不同表示之间的信息 - 逐指/全局解码器：预测每根手指的关键点位移和全局运动

这种设计使模型能自然适应不同手指数量的手型（如从五指手迁移到四指手）。

损失函数 / 训练策略¶

训练分两阶段：

联合训练（Joint Training）：策略模型和适配模型同时训练，各自有独立的损失函数，梯度不跨模型传播。训练800k步。
迁移训练（Transfer Training）：冻结策略模型，为新手型从头训练适配模型，仅需50k步。

策略模型使用强化学习训练（Soft Actor-Critic算法），奖励函数包含： - 任务奖励：成功稳定抓取 - 趋近奖励：避免手型与场景碰撞

适配模型使用自监督循环损失训练：

\[L_{point}(\theta) = \frac{1}{2}\sum_{k=1}^{K}\sum_{i=0}^{1}(e_k^i - p_k^i - \Delta p_k^i)^2\]

其中 \(e_k^i = FK_k^i(j + \Delta j)\) 为通过可微正向运动学计算的预期关键点位置。同时加入自碰撞损失避免手指间穿透。

实验关键数据¶

主实验（表格）¶

实验在5种灵巧手上测试：Shadow、Schunk、Mano、Rutgers、Allegro。使用Shadow Hand训练策略，其他手型用于迁移测试。

方法	Shadow SR	Schunk SR	Mano SR	Rutgers SR	Allegro SR
Single (端到端)	72.2%	-	-	-	-
UNI+OCM	50.1%	41.2%	45.5%	38.9%	-
UNI+GCM	64.0%	45.5%	50.4%	41.4%	-
UNI+IBS	68.0%	54.6%	61.2%	42.6%	-
Ours	71.3%	65.3%	65.2%	54.8%	55.0%

消融实验（表格）¶

对比项	发现
两阶段 vs 端到端	两阶段框架在原始手型上性能接近端到端(71.3% vs 72.2%)，但能迁移到其他手型
IBS vs OCM	OCM在原始手型上过拟合训练物体(50.1%)，IBS显著优于OCM(68.0% vs 50.1%)
IBS vs GCM	GCM在原始手型上较好(64.0%)但迁移差，因过拟合手型几何
Transformer vs 朴素拼接	Transformer策略在所有手型上优于特征拼接，且能适配四指Allegro手

关键发现¶

IBS是最有效的空间交互表示：平衡了物体和手型几何信息，显著优于单独使用物体接触图(OCM)或手型接触图(GCM)
Transformer架构至关重要：不仅提升了迁移性能，还使模型能适应不同手指数量的手型
迁移效率高：新手型的适配模型仅需50k步训练，远少于联合训练的800k步
适配模型实时性好：相比优化方法，神经网络适配模型速度快数倍且无碰撞

亮点与洞察¶

核心洞察："抓取技能的共性存在于不同手型之间，关键是找到合适的表达方式"——这一思路可推广到其他跨形态的技能迁移任务
IBS的跨域有效性：IBS作为Voronoi图的产物，天然对交互双方的几何具有鲁棒性，这在抓取以外的接触密集任务中也可能有用
关键点作为通用动作空间：类似动画系统中的IK控制，语义关键点提供了一种直观且统一的动作接口

局限与展望¶

仅在仿真环境中验证：基于PyBullet，未在真实机器人上测试sim-to-real迁移
手型差异有限：测试的5种手型均为类人手，未测试非类人构型（如软体手）
物体多样性不足：测试物体来自YCB等有限数据集，对不规则形状的泛化未充分验证
适配模型仍需训练数据：虽然迁移训练较快，但仍需为每种新手型收集数据

评分¶

维度	分数 (1-5)	评价
新颖性	4	首次实现灵巧手之间的策略迁移，IBS+关键点的表示设计巧妙
技术深度	4	两阶段框架设计合理，Transformer网络架构有针对性
实验充分性	3.5	消融实验充分，但缺少真实机器人实验
写作质量	4	结构清晰，动机阐述明确
实用价值	3.5	对多手型机器人系统有较大参考价值，但实用落地需sim-to-real验证