ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning¶

会议: CVPR 2025
arXiv: 2503.21860
代码: 待公开
领域: 人体理解 / 手部操作
关键词: 双手灵巧操作, 残差学习, 动捕迁移, 课程学习, 接触力

一句话总结¶

提出 ManipTrans，两阶段残差学习框架将人手动捕数据迁移到灵巧机器手的双手操作：Stage-1 在纯手轨迹上预训练模仿模型（手腕+手指跟踪+平滑奖励），Stage-2 通过残差模块+课程学习加入物体交互约束（物体跟踪+接触力），在 OakInk-V2 上物体旋转误差仅 8.60°、双手成功率 39.5%。

研究背景与动机¶

领域现状¶

领域现状：灵巧操作（如抓取/旋转物体）是机器人的核心挑战。动捕数据提供了丰富的人手操作演示，但人手有 27 个自由度、灵巧手有不同的运动学结构——直接重定向（retarget）无法保证物理上的有效交互。

现有痛点：（1）QuasiSim 等物理仿真方法需要 40+ 小时优化一个轨迹；（2）直接 RL 训练灵巧手操作需要任务特定奖励设计，且双手版本维度爆炸；（3）重定向+RL 残差的简单组合因动作空间复杂而收敛困难。

核心矛盾：轨迹模仿（只看手的运动不看物体）容易但无法保证物体交互成功；交互学习（物体跟踪+接触）难但是最终目标。两者一起学维度太高。

切入角度：解耦——先学手的运动模式（Stage-1，无物体），再用残差网络仅学习"因为物体交互需要的修正量"（Stage-2）。残差模块的动作空间小得多。

核心 idea：手运动预训练 + 物体交互残差 + 课程学习 = 高效的双手灵巧操作迁移。

解决思路¶

本文目标：### 关键设计

Stage-1: 纯手轨迹模仿：用 RL 训练策略模仿动捕的手腕位姿和手指关节角，不涉及物体。

方法详解¶

关键设计¶

Stage-1: 纯手轨迹模仿：用 RL 训练策略模仿动捕的手腕位姿和手指关节角，不涉及物体。奖励包含手腕跟踪+手指跟踪+平滑项
Stage-2: 残差交互学习：冻结 Stage-1 策略，训练残差模块添加修正动作。新增奖励：物体位姿跟踪+接触力奖励\(r_{contact} = w_c \exp(-\lambda_c / \sum_f C_f \cdot \mathbb{1}(D < \xi_c))\)+接触终止条件。课程学习逐步收紧手指和物体跟踪的容差
DexManipNet 数据集：3.3K episodes, 1.34M frames, 1.2K 物体, 61 种任务（含新的双手任务）

损失函数 / 训练策略¶

手模仿奖励：\(r_\mathcal{I} = w_{wrist}r_{wrist} + w_{finger}r_{finger} + w_{smooth}r_{smooth}\)。手指奖励用高斯衰减。训练约 15 分钟/新轨迹（vs QuasiSim 40+小时）。

实验关键数据¶

方法	物体旋转误差↓	物体平移误差↓	双手成功率↑
Retarget+Residual	11.58°	0.79cm	13.9%
RL-only	9.72°	1.23cm	—
ManipTrans	8.60°	0.49cm	39.5%

消融实验¶

接触力作为观测输入：加速收敛
接触力奖励：对接触密集任务成功率关键
课程学习（逐步收紧容差）：防止网络崩溃
重力松弛+高摩擦初始化：早期训练的必要条件

关键发现¶

残差学习比端到端 RL 高效 ~160×（15分钟 vs 40小时）
双手操作的成功率 39.5%（vs 13.9%）——残差解耦大幅降低了双手协调的学习难度
接触终止条件确保稳定抓取

亮点与洞察¶

两阶段解耦的核心洞察——手的运动模式和物体交互修正是两个不同层次的学习目标
15分钟 vs 40小时——效率提升两个数量级

局限与展望¶

部分动捕序列因噪声太大无法迁移
仿真12-DoF手 vs 真实6-DoF手需要额外的指尖适配
仅限操作任务，不适用于移动

评分¶

新颖性: ⭐⭐⭐⭐ 残差学习在灵巧操作中的高效应用
实验充分度: ⭐⭐⭐⭐⭐ 新数据集+定量+真实机器人+双手
写作质量: ⭐⭐⭐⭐ 清晰
价值: ⭐⭐⭐⭐ 为动捕到灵巧操作的迁移提供了高效方案