跳转至

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

会议: CVPR 2025 (Highlight)
arXiv: 2504.13059
代码: https://github.com/robotwin-Platform/RoboTwin
领域: 机器人
关键词: 双臂机器人, 数字孪生, 3D生成, 大语言模型, 仿真基准

一句话总结

RoboTwin提出了一个基于生成式数字孪生的双臂机器人基准框架,利用3D生成基础模型从单张2D图像创建物体数字孪生,并结合大语言模型自动生成机器人操作代码,在仿真预训练+少量真实数据微调的范式下实现了单臂任务成功率提升70%、双臂任务提升40%的显著效果。

研究背景与动机

领域现状:双臂协调和复杂物体操作是构建高级自主机器人系统的核心能力。当前机器人学习策略(如模仿学习、强化学习)严重依赖大量高质量的演示数据和与真实世界对齐的评估基准来训练和验证。

现有痛点:首先,获取多样化、高质量的双臂操作演示数据成本极高,需要真实机器人在真实环境中反复执行任务并记录;其次,现有仿真环境中的物体模型和场景缺乏多样性,难以覆盖真实世界的长尾分布;最后,仿真训练与真实部署之间存在显著的sim-to-real gap,因为仿真场景的视觉外观和物理交互与真实世界不够一致。

核心矛盾:构建多样化仿真数据集需要大量3D物体模型和操作程序,但手动建模和编程开销巨大;而如果仿真环境不够多样和真实,训练出的策略又无法有效迁移到真实世界。

本文目标:(1) 自动化生成多样的3D物体数字孪生;(2) 自动化生成机器人操作代码;(3) 提供仿真—真实对齐的综合评估基准。

切入角度:作者观察到近年来3D生成基础模型(如从单张图像生成3D物体)和大语言模型(具备代码生成和空间推理能力)的快速发展,这两项技术恰好可以分别解决物体建模和操作编程的自动化问题。

核心 idea:将3D生成模型和LLM结合,从单张2D图像自动创建交互式数字孪生场景,并通过空间关系感知的代码生成框架自动产生机器人操作轨迹,从而以极低成本构建大规模、多样化的双臂操作基准数据。

方法详解

整体框架

RoboTwin的pipeline分为三个核心阶段:(1) 数字孪生生成——从单张2D图像出发,利用3D生成基础模型创建物体的3D数字孪生并部署到仿真环境中;(2) 操作代码生成——利用LLM结合物体空间标注自动分解任务、确定空间约束并生成精确的机器人运动代码;(3) 策略训练与评估——在生成的仿真数据上预训练操作策略,并在真实COBOT Magic Robot平台上微调和评估。

关键设计

  1. 数字孪生自动生成:

    • 功能:从单张物体2D图像自动创建可交互的3D模型
    • 核心思路:利用3D生成基础模型(如基于扩散模型的单图到3D重建方法)将物体照片转换为3D mesh模型,然后自动添加物理属性(质量、摩擦系数、碰撞体等),使其可在仿真器中进行物理交互。通过切换不同物体图像,可以快速生成大量外观差异显著的数字孪生物体,覆盖真实世界的物体多样性。
    • 设计动机:传统方法需要手动建模每个物体的3D模型,成本高且难以扩展。利用现成的3D生成模型,只需一张照片就能自动创建数字孪生,极大降低了数据集构建成本。
  2. 空间关系感知的代码生成:

    • 功能:自动将任务描述转换为可执行的机器人操作代码
    • 核心思路:首先对场景中的物体进行空间标注(位置、朝向、关键点等),然后将这些标注作为上下文输入LLM。LLM通过多步推理完成:(a) 任务分解——将高层任务拆分为子任务序列(如"先用左手抓杯子,再用右手打开水龙头");(b) 空间约束确定——根据物体标注推断每个子任务的空间约束(抓取位置、放置位置、避障路径等);(c) 运动代码生成——生成精确的机器人末端执行器轨迹点和夹爪动作代码。
    • 设计动机:手动编写双臂协调操作代码非常复杂,尤其是涉及空间关系推理(如物体间相对位置、碰撞避免)。LLM天然具备语义理解和代码生成能力,配合空间标注信息可以自动完成这一过程。
  3. 仿真-真实对齐评估体系:

    • 功能:提供同时支持仿真和真实世界的标准化评估
    • 核心思路:在开源COBOT Magic Robot双臂平台上构建了多类双臂协作任务(如协作搬运、工具使用、精细操作等),每个任务在仿真和真实环境中都有对应版本。评估协议统一了任务成功判定标准,使得策略在仿真中的表现可以公平地与真实部署对比。
    • 设计动机:之前的机器人仿真基准往往只关注仿真性能,缺乏与真实世界的直接对比,难以评估sim-to-real迁移效果。

训练策略

采用"仿真预训练 + 真实微调"的两阶段范式:先在RoboTwin生成的大量仿真数据上训练操作策略(如ACT、Diffusion Policy等),然后用少量真实世界数据进行微调。这种方式充分利用了仿真数据的规模优势,同时通过微调弥补sim-to-real gap。

实验关键数据

主实验

任务类型 指标 仿真预训练+微调 仅真实数据训练 提升
单臂任务 成功率 显著提升 基线 >70%
双臂任务 成功率 显著提升 基线 >40%

框架在多类双臂任务上均展示了显著的性能提升,说明数字孪生生成的数据质量足以支撑有效的策略学习。特别是在双臂协作任务中,数据多样性带来的泛化能力提升尤为明显。

消融实验

配置 效果变化 说明
仅真实数据(无预训练) 基线 受限于数据量,性能较差
仿真预训练+真实微调 大幅提升 数字孪生数据提供了关键先验
不同3D生成模型 影响较小 说明框架对生成模型不敏感
不同数量真实微调数据 逐步提升 少量真实数据即可显著缩小gap

关键发现

  • 仿真数据的多样性比数量更重要——通过数字孪生替换物体外观可以有效提升策略的泛化能力
  • LLM生成的操作代码质量较高,经过空间关系标注增强后可以正确处理大部分双臂协作场景
  • RoboTwin在2.0版本中进一步扩展到50个双臂任务、731个物体、5种机器人形态,验证了框架的可扩展性

亮点与洞察

  • 3D生成+LLM的组合是本文最大亮点:巧妙地将两个快速发展的基础模型能力嫁接到机器人数据生成这一瓶颈问题上,实现了从2D照片到可执行仿真环境的全自动pipeline
  • 空间关系感知的设计很实用:不是让LLM"凭空想象"机器人动作,而是提供精确的空间标注作为grounding,大幅提升了代码生成的可靠性
  • 这一框架的思路可以迁移到其他具身智能任务中:例如导航、抓取、装配等任务也可以用类似的"生成式数字孪生+LLM编程"范式快速构建训练数据

局限与展望

  • 3D生成模型对复杂柔性物体(如布料、绳索)的支持有限,目前数字孪生主要适用于刚体物体
  • LLM生成的操作代码对高精度任务(如螺丝装配)可能不够精确,仍需人工校验
  • sim-to-real gap虽然通过微调得到了缓解,但在视觉外观差异很大的场景(如光照变化、遮挡)中仍可能失效
  • 未来方向包括:引入更强的域随机化(RoboTwin 2.0已开始探索)、支持柔性物体操作、集成视觉语言动作模型(VLA)

相关工作与启发

  • vs RLBench / VIMA: 这些基准主要关注单臂任务,RoboTwin专注于更复杂的双臂协作,且通过数字孪生提供了更好的物体多样性
  • vs ManiSkill / IsaacGym: 这些仿真平台提供了通用的操作环境,但缺乏自动化的场景生成能力,RoboTwin的贡献在于端到端的数据生成pipeline
  • vs SayCan / Code as Policies: 这些工作也使用LLM进行机器人任务规划和代码生成,但RoboTwin更注重空间关系的精确建模和数字孪生数据的大规模生成

评分

  • 新颖性: ⭐⭐⭐⭐ 3D生成+LLM组合应用于机器人数据生成有新意,但各单一技术并非首创
  • 实验充分度: ⭐⭐⭐⭐ 仿真和真实平台的双重验证令人信服,但消融实验可更详细
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,pipeline描述直观,作为Highlight论文写作水平较高
  • 价值: ⭐⭐⭐⭐⭐ 开源框架和基准对双臂机器人社区有很高实用价值,已被广泛引用并发展到2.0版本

相关论文