跳转至

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

会议: ICLR 2026
arXiv: 2603.01151
代码: drex.github.io
领域: 3D视觉 / 机器人操纵
关键词: real-to-sim-to-real, 可微物理仿真, 质量辨识, 灵巧抓取, 高斯表示

一句话总结

提出D-REX,一个基于高斯表示的可微real-to-sim-to-real引擎,通过视觉观测和机器人控制信号进行端到端物体质量辨识,并利用辨识的质量进行力感知的灵巧抓取策略学习,有效缩小了sim-to-real差距。

研究背景与动机

  1. 领域现状:仿真是机器人策略学习的核心平台,但sim-to-real gap仍是根本挑战。现有方法包括域随机化、系统辨识、域适应和数字孪生构建,各有局限。
  2. 现有痛点
  3. 构建精确的数字孪生需要集成几何重建和参数辨识等多个流程,复杂度高
  4. 从视觉观测估计物体的物理属性(如质量)极其困难,SAM2/VLM初始估计通常与真实值偏差大
  5. 现有抓取策略只做位置控制,忽略力控制——同一个抓取姿势对不同质量物体效果截然不同
  6. 非可微仿真器限制了反向传播进行参数优化
  7. 核心矛盾:高保真物理仿真需要准确的物理参数,但这些参数从视觉观测难以获得;抓取策略需要力控制,但力大小取决于未知的物体质量
  8. 本文要解决什么:(1) 从robot-object交互视频中辨识物体质量;(2) 用辨识的质量做力感知的灵巧抓取策略学习
  9. 切入角度:利用可微物理引擎对仿真轨迹进行反向传播,优化质量参数使仿真轨迹匹配真实轨迹
  10. 核心idea一句话:用可微仿真+高斯表示构建数字孪生,通过轨迹匹配辨识质量,再基于质量做力-位混合抓取策略学习

方法详解

整体框架

四阶段流水线:(1) Real-to-Sim:从RGB视频重建场景和物体的视觉/几何模型;(2) 质量辨识:通过可微物理引擎从robot-object交互中辨识物体质量;(3) 人类示范迁移:将人类演示视频转化为可执行的机器人轨迹;(4) 策略学习:基于辨识质量的力感知抓取策略训练。

关键设计

  1. 视觉与几何重建 (Visual and Geometric Reconstruction)
  2. 做什么:从RGB视频构建碰撞网格和高保真渲染表示
  3. 核心思路:处理手机采集的视频,训练两组高斯原语——2D高斯(含法线估计)提供精确碰撞几何,3D高斯确保高保真渲染。输出碰撞网格 \(\mathcal{K}\) 和高斯粒子 \(\mathcal{P}\)
  4. 设计动机:碰撞检测需要精确几何,视觉监督需要写实渲染,两者需求不同因此分开建模

  5. 可微物理引擎与质量辨识

  6. 做什么:从robot-object推动交互中辨识物体质量
  7. 核心思路:在真实世界和仿真中执行相同的推动动作,收集物体轨迹 \(\{\mathbf{s}_t^{real}\}\)\(\{\mathbf{s}_t^{sim}(m)\}\)。最小化轨迹损失: \(\min_{m>0} \mathcal{L}_{traj}(m) = \sum_{t=1}^T \|\mathbf{s}_t^{sim}(m) - \mathbf{s}_t^{real}\|_2^2\)
  8. 使用半隐式Euler积分做状态更新 \(G([\mathbf{s}_t, \mathbf{u}_t], m, \theta)\),采用compliant penalty-based接触模型,整个计算图可微
  9. 梯度通过自动微分反向传播至质量参数:\(\frac{\partial \mathcal{L}}{\partial m} = \sum_t \frac{\partial \mathcal{L}}{\partial \mathbf{s}_t^{sim}} \cdot \frac{\partial \mathbf{s}_t^{sim}}{\partial \mathbf{M}_t} \cdot \frac{\partial \mathbf{M}_t}{\partial m}\)
  10. 真实物体pose通过FoundationPose获取
  11. 设计动机:直接从交互数据优化,不需要手动指定外力(vs GradSim),利用一致的机器人控制信号建模外力

  12. 人类示范到机器人示范的迁移

  13. 做什么:将人类手部操作视频转化为机器人可执行轨迹
  14. 核心思路:HaMeR + MCC-HO从视频帧重建人手关节和物体6-DoF姿态 → Dex-Retargeting映射到机器人手自由度 → 输出关节角动作 \(\mathbf{A}_t \in \mathbb{R}^{J_r}\)

  15. 力感知策略学习 (Force-Aware Policy Learning)

  16. 做什么:训练同时控制位置和力的灵巧抓取策略
  17. 核心思路:多头网络 \(\pi_\phi\) 输入物体碰撞网格顶点(位置编码后),预测三部分:关节位置 \(\hat{\mathbf{A}} \in \mathbb{R}^{16}\)、接触约束 \(\hat{\mathbf{r}} \in \mathbb{R}^2\)、抓取力约束 \(\hat{\mathbf{f}} = \frac{m \cdot g}{n_{active}}\)
  18. 力约束基于辨识质量 \(m\) 计算,在活跃接触点间均分重力
  19. 两阶段训练:先只训练位置控制,再加入力控制约束重训

损失函数 / 训练策略

质量辨识用轨迹MSE损失+Adam优化约200个epoch(5-20分钟)。策略训练用示范数据做监督学习,含接触约束损失。

实验关键数据

质量辨识

物体 VLM推断质量 辨识质量 真值 误差%
Letter U 500g 110g 125g 12.0%
Letter A 500g 145g 134g 9.0%
Lego 300g 53g 59g 8.6%
Cookie 500g 200g 210g 4.8%
Ketchup 1000g 667g 726g 8.1%

相同几何不同密度实验:三种密度的辨识误差均在13g以内。

抓取实验

方法 整体表现
DexGraspNet 2.0 抓取成功率低且方差大
Human2Sim2Robot 物体质量增大时性能显著退化
D-REX 8个物体上均高成功率、低方差

交叉评估表明:只有训练和评估质量匹配时策略才能达到最佳性能(匹配时75-95%,不匹配时15-40%),证实力控制的必要性。

消融实验

  • 力条件策略 vs 纯位置策略:力条件在所有物体上持续更优
  • 辨识质量 vs 真值质量:使用辨识质量的策略表现与使用真值质量的策略相当,远优于随机质量
  • 推动任务设计(虚拟支点+减少摩擦)是质量辨识准确的关键

亮点

  • 首次在real-to-sim-to-real框架中集成可微物理仿真与高斯表示做质量辨识
  • 力-位混合策略学习是对纯位置策略的重要补充,实验结果令人信服
  • VLM推断的质量与真值差距巨大(如500g vs 125g),证明了物理辨识的必要性
  • 端到端从视频到数字孪生到策略部署,流水线完整且实际可用

局限性 / 可改进方向

  • 质量辨识依赖简单的推动交互,可能不适用于所有物体类型
  • 重建流程耗时30-35分钟/物体,质量辨识5-20分钟,限制了即时部署
  • 只辨识质量一个参数,摩擦系数等其他物理参数未涉及
  • 示范迁移依赖HaMeR/MCC-HO的手估计质量,对遮挡严重场景可能不鲁棒
  • 只做了桌面抓取场景,更复杂的操纵任务(如倒水、工具使用)未验证
  • compliant contact模型的刚度/阻尼参数也需要手动设定

与相关工作的对比

  • vs GradSim:同样基于可微仿真做系统辨识,但D-REX直接利用机器人控制信号而非手动指定外力,更实用
  • vs DexGraspNet 2.0:大规模仿真数据训练但无力控制,对质量变化不敏感
  • vs Human2Sim2Robot:从人类视频学习但只做位置控制,高质量物体易掉落
  • vs Gaussian-based数字孪生方法:多数只做视觉重建,D-REX进一步做物理参数辨识

启发与关联

  • 可微仿真+视觉表示的结合思路可推广到更多物理参数辨识(惯性矩、刚度等)
  • 力感知策略学习的框架可扩展到更多操纵任务
  • 从"质量很重要"的实验结论出发,可探索更多物理属性对策略的影响

评分

  • 新颖性: ⭐⭐⭐⭐ (可微仿真+高斯表示+力感知策略的完整链路)
  • 实验充分度: ⭐⭐⭐⭐ (real-world验证+多维度消融)
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐ (对sim-to-real领域有实际推进)