D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping¶
会议: ICLR 2026
arXiv: 2603.01151
代码: drex.github.io
领域: 3D视觉 / 机器人操纵
关键词: real-to-sim-to-real, 可微物理仿真, 质量辨识, 灵巧抓取, 高斯表示
一句话总结¶
提出D-REX,一个基于高斯表示的可微real-to-sim-to-real引擎,通过视觉观测和机器人控制信号进行端到端物体质量辨识,并利用辨识的质量进行力感知的灵巧抓取策略学习,有效缩小了sim-to-real差距。
研究背景与动机¶
- 领域现状:仿真是机器人策略学习的核心平台,但sim-to-real gap仍是根本挑战。现有方法包括域随机化、系统辨识、域适应和数字孪生构建,各有局限。
- 现有痛点:
- 构建精确的数字孪生需要集成几何重建和参数辨识等多个流程,复杂度高
- 从视觉观测估计物体的物理属性(如质量)极其困难,SAM2/VLM初始估计通常与真实值偏差大
- 现有抓取策略只做位置控制,忽略力控制——同一个抓取姿势对不同质量物体效果截然不同
- 非可微仿真器限制了反向传播进行参数优化
- 核心矛盾:高保真物理仿真需要准确的物理参数,但这些参数从视觉观测难以获得;抓取策略需要力控制,但力大小取决于未知的物体质量
- 本文要解决什么:(1) 从robot-object交互视频中辨识物体质量;(2) 用辨识的质量做力感知的灵巧抓取策略学习
- 切入角度:利用可微物理引擎对仿真轨迹进行反向传播,优化质量参数使仿真轨迹匹配真实轨迹
- 核心idea一句话:用可微仿真+高斯表示构建数字孪生,通过轨迹匹配辨识质量,再基于质量做力-位混合抓取策略学习
方法详解¶
整体框架¶
四阶段流水线:(1) Real-to-Sim:从RGB视频重建场景和物体的视觉/几何模型;(2) 质量辨识:通过可微物理引擎从robot-object交互中辨识物体质量;(3) 人类示范迁移:将人类演示视频转化为可执行的机器人轨迹;(4) 策略学习:基于辨识质量的力感知抓取策略训练。
关键设计¶
- 视觉与几何重建 (Visual and Geometric Reconstruction)
- 做什么:从RGB视频构建碰撞网格和高保真渲染表示
- 核心思路:处理手机采集的视频,训练两组高斯原语——2D高斯(含法线估计)提供精确碰撞几何,3D高斯确保高保真渲染。输出碰撞网格 \(\mathcal{K}\) 和高斯粒子 \(\mathcal{P}\)
-
设计动机:碰撞检测需要精确几何,视觉监督需要写实渲染,两者需求不同因此分开建模
-
可微物理引擎与质量辨识
- 做什么:从robot-object推动交互中辨识物体质量
- 核心思路:在真实世界和仿真中执行相同的推动动作,收集物体轨迹 \(\{\mathbf{s}_t^{real}\}\) 和 \(\{\mathbf{s}_t^{sim}(m)\}\)。最小化轨迹损失: \(\min_{m>0} \mathcal{L}_{traj}(m) = \sum_{t=1}^T \|\mathbf{s}_t^{sim}(m) - \mathbf{s}_t^{real}\|_2^2\)
- 使用半隐式Euler积分做状态更新 \(G([\mathbf{s}_t, \mathbf{u}_t], m, \theta)\),采用compliant penalty-based接触模型,整个计算图可微
- 梯度通过自动微分反向传播至质量参数:\(\frac{\partial \mathcal{L}}{\partial m} = \sum_t \frac{\partial \mathcal{L}}{\partial \mathbf{s}_t^{sim}} \cdot \frac{\partial \mathbf{s}_t^{sim}}{\partial \mathbf{M}_t} \cdot \frac{\partial \mathbf{M}_t}{\partial m}\)
- 真实物体pose通过FoundationPose获取
-
设计动机:直接从交互数据优化,不需要手动指定外力(vs GradSim),利用一致的机器人控制信号建模外力
-
人类示范到机器人示范的迁移
- 做什么:将人类手部操作视频转化为机器人可执行轨迹
-
核心思路:HaMeR + MCC-HO从视频帧重建人手关节和物体6-DoF姿态 → Dex-Retargeting映射到机器人手自由度 → 输出关节角动作 \(\mathbf{A}_t \in \mathbb{R}^{J_r}\)
-
力感知策略学习 (Force-Aware Policy Learning)
- 做什么:训练同时控制位置和力的灵巧抓取策略
- 核心思路:多头网络 \(\pi_\phi\) 输入物体碰撞网格顶点(位置编码后),预测三部分:关节位置 \(\hat{\mathbf{A}} \in \mathbb{R}^{16}\)、接触约束 \(\hat{\mathbf{r}} \in \mathbb{R}^2\)、抓取力约束 \(\hat{\mathbf{f}} = \frac{m \cdot g}{n_{active}}\)
- 力约束基于辨识质量 \(m\) 计算,在活跃接触点间均分重力
- 两阶段训练:先只训练位置控制,再加入力控制约束重训
损失函数 / 训练策略¶
质量辨识用轨迹MSE损失+Adam优化约200个epoch(5-20分钟)。策略训练用示范数据做监督学习,含接触约束损失。
实验关键数据¶
质量辨识¶
| 物体 | VLM推断质量 | 辨识质量 | 真值 | 误差% |
|---|---|---|---|---|
| Letter U | 500g | 110g | 125g | 12.0% |
| Letter A | 500g | 145g | 134g | 9.0% |
| Lego | 300g | 53g | 59g | 8.6% |
| Cookie | 500g | 200g | 210g | 4.8% |
| Ketchup | 1000g | 667g | 726g | 8.1% |
相同几何不同密度实验:三种密度的辨识误差均在13g以内。
抓取实验¶
| 方法 | 整体表现 |
|---|---|
| DexGraspNet 2.0 | 抓取成功率低且方差大 |
| Human2Sim2Robot | 物体质量增大时性能显著退化 |
| D-REX | 8个物体上均高成功率、低方差 |
交叉评估表明:只有训练和评估质量匹配时策略才能达到最佳性能(匹配时75-95%,不匹配时15-40%),证实力控制的必要性。
消融实验¶
- 力条件策略 vs 纯位置策略:力条件在所有物体上持续更优
- 辨识质量 vs 真值质量:使用辨识质量的策略表现与使用真值质量的策略相当,远优于随机质量
- 推动任务设计(虚拟支点+减少摩擦)是质量辨识准确的关键
亮点¶
- 首次在real-to-sim-to-real框架中集成可微物理仿真与高斯表示做质量辨识
- 力-位混合策略学习是对纯位置策略的重要补充,实验结果令人信服
- VLM推断的质量与真值差距巨大(如500g vs 125g),证明了物理辨识的必要性
- 端到端从视频到数字孪生到策略部署,流水线完整且实际可用
局限性 / 可改进方向¶
- 质量辨识依赖简单的推动交互,可能不适用于所有物体类型
- 重建流程耗时30-35分钟/物体,质量辨识5-20分钟,限制了即时部署
- 只辨识质量一个参数,摩擦系数等其他物理参数未涉及
- 示范迁移依赖HaMeR/MCC-HO的手估计质量,对遮挡严重场景可能不鲁棒
- 只做了桌面抓取场景,更复杂的操纵任务(如倒水、工具使用)未验证
- compliant contact模型的刚度/阻尼参数也需要手动设定
与相关工作的对比¶
- vs GradSim:同样基于可微仿真做系统辨识,但D-REX直接利用机器人控制信号而非手动指定外力,更实用
- vs DexGraspNet 2.0:大规模仿真数据训练但无力控制,对质量变化不敏感
- vs Human2Sim2Robot:从人类视频学习但只做位置控制,高质量物体易掉落
- vs Gaussian-based数字孪生方法:多数只做视觉重建,D-REX进一步做物理参数辨识
启发与关联¶
- 可微仿真+视觉表示的结合思路可推广到更多物理参数辨识(惯性矩、刚度等)
- 力感知策略学习的框架可扩展到更多操纵任务
- 从"质量很重要"的实验结论出发,可探索更多物理属性对策略的影响
评分¶
- 新颖性: ⭐⭐⭐⭐ (可微仿真+高斯表示+力感知策略的完整链路)
- 实验充分度: ⭐⭐⭐⭐ (real-world验证+多维度消融)
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐ (对sim-to-real领域有实际推进)