D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping¶

会议: ICLR 2026
arXiv: 2603.01151
代码: drex.github.io
领域: 3D视觉 / 机器人操纵
关键词: real-to-sim-to-real, 可微物理仿真, 质量辨识, 灵巧抓取, 高斯表示

一句话总结¶

提出D-REX，一个基于高斯表示的可微real-to-sim-to-real引擎，通过视觉观测和机器人控制信号进行端到端物体质量辨识，并利用辨识的质量进行力感知的灵巧抓取策略学习，有效缩小了sim-to-real差距。

研究背景与动机¶

领域现状：仿真是机器人策略学习的核心平台，但sim-to-real gap仍是根本挑战。现有方法包括域随机化、系统辨识、域适应和数字孪生构建，各有局限。
现有痛点：
构建精确的数字孪生需要集成几何重建和参数辨识等多个流程，复杂度高
从视觉观测估计物体的物理属性（如质量）极其困难，SAM2/VLM初始估计通常与真实值偏差大
现有抓取策略只做位置控制，忽略力控制——同一个抓取姿势对不同质量物体效果截然不同
非可微仿真器限制了反向传播进行参数优化
核心矛盾：高保真物理仿真需要准确的物理参数，但这些参数从视觉观测难以获得；抓取策略需要力控制，但力大小取决于未知的物体质量
本文要解决什么：(1) 从robot-object交互视频中辨识物体质量；(2) 用辨识的质量做力感知的灵巧抓取策略学习
切入角度：利用可微物理引擎对仿真轨迹进行反向传播，优化质量参数使仿真轨迹匹配真实轨迹
核心idea一句话：用可微仿真+高斯表示构建数字孪生，通过轨迹匹配辨识质量，再基于质量做力-位混合抓取策略学习

方法详解¶

整体框架¶

四阶段流水线：(1) Real-to-Sim：从RGB视频重建场景和物体的视觉/几何模型；(2) 质量辨识：通过可微物理引擎从robot-object交互中辨识物体质量；(3) 人类示范迁移：将人类演示视频转化为可执行的机器人轨迹；(4) 策略学习：基于辨识质量的力感知抓取策略训练。

关键设计¶

视觉与几何重建 (Visual and Geometric Reconstruction)
做什么：从RGB视频构建碰撞网格和高保真渲染表示
核心思路：处理手机采集的视频，训练两组高斯原语——2D高斯(含法线估计)提供精确碰撞几何，3D高斯确保高保真渲染。输出碰撞网格 \(\mathcal{K}\) 和高斯粒子 \(\mathcal{P}\)
设计动机：碰撞检测需要精确几何，视觉监督需要写实渲染，两者需求不同因此分开建模
可微物理引擎与质量辨识
做什么：从robot-object推动交互中辨识物体质量
核心思路：在真实世界和仿真中执行相同的推动动作，收集物体轨迹 \(\{\mathbf{s}_t^{real}\}\) 和 \(\{\mathbf{s}_t^{sim}(m)\}\)。最小化轨迹损失： \(\min_{m>0} \mathcal{L}_{traj}(m) = \sum_{t=1}^T \|\mathbf{s}_t^{sim}(m) - \mathbf{s}_t^{real}\|_2^2\)
使用半隐式Euler积分做状态更新 \(G([\mathbf{s}_t, \mathbf{u}_t], m, \theta)\)，采用compliant penalty-based接触模型，整个计算图可微
梯度通过自动微分反向传播至质量参数：\(\frac{\partial \mathcal{L}}{\partial m} = \sum_t \frac{\partial \mathcal{L}}{\partial \mathbf{s}_t^{sim}} \cdot \frac{\partial \mathbf{s}_t^{sim}}{\partial \mathbf{M}_t} \cdot \frac{\partial \mathbf{M}_t}{\partial m}\)
真实物体pose通过FoundationPose获取
设计动机：直接从交互数据优化，不需要手动指定外力（vs GradSim），利用一致的机器人控制信号建模外力
人类示范到机器人示范的迁移
做什么：将人类手部操作视频转化为机器人可执行轨迹
核心思路：HaMeR + MCC-HO从视频帧重建人手关节和物体6-DoF姿态 → Dex-Retargeting映射到机器人手自由度 → 输出关节角动作 \(\mathbf{A}_t \in \mathbb{R}^{J_r}\)
力感知策略学习 (Force-Aware Policy Learning)
做什么：训练同时控制位置和力的灵巧抓取策略
核心思路：多头网络 \(\pi_\phi\) 输入物体碰撞网格顶点（位置编码后），预测三部分：关节位置 \(\hat{\mathbf{A}} \in \mathbb{R}^{16}\)、接触约束 \(\hat{\mathbf{r}} \in \mathbb{R}^2\)、抓取力约束 \(\hat{\mathbf{f}} = \frac{m \cdot g}{n_{active}}\)
力约束基于辨识质量 \(m\) 计算，在活跃接触点间均分重力
两阶段训练：先只训练位置控制，再加入力控制约束重训

损失函数 / 训练策略¶

质量辨识用轨迹MSE损失+Adam优化约200个epoch（5-20分钟）。策略训练用示范数据做监督学习，含接触约束损失。

实验关键数据¶

质量辨识¶

物体	VLM推断质量	辨识质量	真值	误差%
Letter U	500g	110g	125g	12.0%
Letter A	500g	145g	134g	9.0%
Lego	300g	53g	59g	8.6%
Cookie	500g	200g	210g	4.8%
Ketchup	1000g	667g	726g	8.1%

相同几何不同密度实验：三种密度的辨识误差均在13g以内。

抓取实验¶

方法	整体表现
DexGraspNet 2.0	抓取成功率低且方差大
Human2Sim2Robot	物体质量增大时性能显著退化
D-REX	8个物体上均高成功率、低方差

交叉评估表明：只有训练和评估质量匹配时策略才能达到最佳性能（匹配时75-95%，不匹配时15-40%），证实力控制的必要性。

消融实验¶

力条件策略 vs 纯位置策略：力条件在所有物体上持续更优
辨识质量 vs 真值质量：使用辨识质量的策略表现与使用真值质量的策略相当，远优于随机质量
推动任务设计（虚拟支点+减少摩擦）是质量辨识准确的关键

亮点¶

首次在real-to-sim-to-real框架中集成可微物理仿真与高斯表示做质量辨识
力-位混合策略学习是对纯位置策略的重要补充，实验结果令人信服
VLM推断的质量与真值差距巨大（如500g vs 125g），证明了物理辨识的必要性
端到端从视频到数字孪生到策略部署，流水线完整且实际可用

局限性 / 可改进方向¶

质量辨识依赖简单的推动交互，可能不适用于所有物体类型
重建流程耗时30-35分钟/物体，质量辨识5-20分钟，限制了即时部署
只辨识质量一个参数，摩擦系数等其他物理参数未涉及
示范迁移依赖HaMeR/MCC-HO的手估计质量，对遮挡严重场景可能不鲁棒
只做了桌面抓取场景，更复杂的操纵任务（如倒水、工具使用）未验证
compliant contact模型的刚度/阻尼参数也需要手动设定

与相关工作的对比¶

vs GradSim：同样基于可微仿真做系统辨识，但D-REX直接利用机器人控制信号而非手动指定外力，更实用
vs DexGraspNet 2.0：大规模仿真数据训练但无力控制，对质量变化不敏感
vs Human2Sim2Robot：从人类视频学习但只做位置控制，高质量物体易掉落
vs Gaussian-based数字孪生方法：多数只做视觉重建，D-REX进一步做物理参数辨识

启发与关联¶

可微仿真+视觉表示的结合思路可推广到更多物理参数辨识（惯性矩、刚度等）
力感知策略学习的框架可扩展到更多操纵任务
从"质量很重要"的实验结论出发，可探索更多物理属性对策略的影响

评分¶

新颖性: ⭐⭐⭐⭐ (可微仿真+高斯表示+力感知策略的完整链路)
实验充分度: ⭐⭐⭐⭐ (real-world验证+多维度消融)
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐ (对sim-to-real领域有实际推进)