跳转至

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

会议: CVPR 2026
arXiv: 2512.19402
代码: https://real2edit2real.github.io/ (有,项目主页)
领域: 3D视觉 / 机器人学习 / 数据增强
关键词: 机器人演示生成, 3D编辑, 视频生成, 数据增强, 空间泛化

一句话总结

提出 Real2Edit2Real 框架,通过"3D 重建 → 点云编辑生成新轨迹 → 深度引导视频生成合成演示"的三阶段管线,从仅 1-5 个真实演示生成大量多样化的操作演示数据,使策略性能达到甚至超过 50 个真实演示训练的水平,数据效率提升 10-50 倍。

研究背景与动机

领域现状:机器人操作学习(robot manipulation learning)正从传统控制转向数据驱动的视运动策略(visuomotor policy)。像 ACT、Diffusion Policy、π0 等强大的策略架构已经出现,但它们的性能严重依赖大规模、多样化的演示数据。特别是空间泛化(spatial generalization)——物体在不同位置/朝向时策略仍能正常工作——需要在大量不同空间配置下收集演示。

现有痛点:(1) 收集真实机器人演示极其昂贵——每个新位置配置需要人工操作或遥操作,一个简单的抓放任务可能需要数百次演示才能覆盖足够的空间变化;(2) 纯 2D 数据增强(如随机裁剪、颜色抖动)无法改变物体的 3D 空间位置,对空间泛化帮助有限;(3) 使用 3D 模拟器(如 Isaac Gym)可以生成大量数据,但 sim-to-real gap 严重影响迁移效果;(4) 现有的视频生成方法虽然能合成视觉上逼真的视频,但缺乏精确的 3D 空间控制——无法保证生成的操作轨迹在物理上是可行的。

核心矛盾:需要大量在不同 3D 空间配置下的演示数据 vs 真实数据收集成本极高。核心挑战在于如何在保持空间精确性的同时实现高视觉保真度的数据生成。

本文目标:设计一个框架,能从少量(1-5 个)真实演示出发,自动生成在新空间配置下的高质量操作演示——生成的数据足够训练出强泛化能力的操作策略。

切入角度:作者的核心观察是 3D 空间编辑和 2D 视觉生成可以分工协作——先在 3D 点云空间中精确编辑物体位置和机械臂轨迹(确保几何正确性),再用条件视频生成模型将编辑后的 3D 场景渲染为逼真的多视角视频(确保视觉保真度)。深度图作为连接这两个世界的桥梁——它既是 3D 编辑的可靠输出,又是视频生成的精确控制信号。

核心 idea:用 3D 编辑保证空间正确性,用深度引导视频生成保证视觉真实性,通过深度图作为两者之间的 3D 控制接口。

方法详解

整体框架

Real2Edit2Real 包含三个阶段:

阶段一:度量尺度 3D 重建——从源演示的多视角 RGB 观测重建场景的 3D 点云和深度图,使用带度量尺度的 3D 重建模型确保重建的几何在物理单位上是准确的。

阶段二:3D 编辑与轨迹合成——在重建的点云上执行 3D 空间编辑:移动目标物体到新位置、相应调整机械臂的操作轨迹(通过IK求解或轨迹优化),同时进行几何校正以确保修改后的机械臂姿态在物理上可行。渲染编辑后场景的深度图序列作为后续视频生成的控制信号。

阶段三:多条件视频生成——以深度图序列为主要控制信号,辅以动作(action)、边缘(edge)、光线(ray)映射等条件,通过一个多条件控制的视频扩散模型生成视觉逼真的多视角操作视频。生成的视频帧作为新的演示数据用于训练操作策略。

关键设计

  1. 度量尺度 3D 重建与深度可靠编辑:

    • 功能:从多视角 RGB 图像重建出带有真实物理尺度的 3D 场景,支持后续的空间编辑
    • 核心思路:使用 DUSt3R 或类似的端到端 3D 重建模型,从演示录制的多个摄像头视角恢复场景的稠密点云和相机参数。关键在于度量尺度(metric-scale)——重建的 3D 坐标与真实世界的厘米级坐标对应,这使得后续的空间编辑(如"将杯子向右移动 10cm")在物理上有意义。对编辑后的点云进行深度渲染时,进行几何校正——当机械臂移动到新位置后,其关节角度通过逆运动学(IK)重新计算以确保运动学可行性,然后将校正后的机械臂模型渲染到编辑后的场景深度图中
    • 设计动机:纯 2D 编辑(如图像 inpainting)无法保证编辑后的场景在 3D 空间中是一致的——一个在 2D 图像中"移动"的物体可能在 3D 中根本不存在合理的位姿。通过在 3D 空间中编辑再渲染到 2D,从根本上保证了空间一致性
  2. 多条件视频生成模型:

    • 功能:以编辑后的深度图序列为主控制信号,生成视觉逼真的多视角操作视频
    • 核心思路:在视频扩散模型(基于 SVD 或类似架构)的基础上引入多种条件控制信号:(1) 深度图序列——作为主要的 3D 空间控制信号,通过 ControlNet 式的条件注入机制引导视频每帧的空间布局;(2) 动作信号——编码机械臂的关节角度/末端位姿变化,确保生成的运动轨迹与规划的轨迹一致;(3) 边缘图——保持几何边界的锐利度,防止物体轮廓模糊;(4) 光线映射(ray maps)——编码相机的内外参信息,确保多视角间的几何一致性。四种控制信号通过不同的编码器分别注入到扩散模型的 U-Net 中
    • 设计动机:单纯用深度图控制虽然能保证 3D 布局正确,但可能出现纹理闪烁、物体外观不一致等伪影。多条件设计从几何(深度)、运动(动作)、结构(边缘)和视角(光线)四个维度协同约束生成过程,最大化视觉保真度
  3. 空间增强与轨迹生成策略:

    • 功能:从少量源演示系统性地生成覆盖目标空间范围的多样化新轨迹
    • 核心思路:给定源演示中物体的初始位置 \(p_0\),在目标物体周围定义一个采样空间(如以 \(p_0\) 为中心、半径 \(r\) 的球体),均匀或随机采样新的目标位置 \(\{p_1, p_2, ..., p_M\}\)。对每个新位置,通过以下步骤生成对应的操作轨迹:(1) 在点云中将目标物体从 \(p_0\) 平移/旋转到 \(p_i\);(2) 根据新的物体位置重新规划抓取前的接近轨迹(使用IK求解);(3) 保持操作动作本身不变(如抓取后的抬起、移动、放下动作复制自源演示);(4) 渲染整个过程的深度图序列。支持高度编辑(改变物体的垂直位置)和纹理编辑(改变物体外观)的扩展
    • 设计动机:空间泛化的关键瓶颈在于训练数据中物体位置的多样性。通过在 3D 空间中系统性地采样新位置并自动生成对应轨迹,可以用算法替代人工,以极低成本覆盖目标空间

损失函数 / 训练策略

视频生成模型使用标准的去噪扩散训练:\(\mathcal{L} = \mathbb{E}_{t, \epsilon}[\|\epsilon - \epsilon_\theta(x_t, t, c)\|^2]\),其中 \(c\) 是包含深度、动作、边缘、光线映射的条件信号。训练数据来自源演示视频及其对应的深度图、动作标注。操作策略使用 ACT 或 Diffusion Policy 等标准架构,在生成的增强数据上端到端训练。生成视频中每帧的 RGB 图像和对应的动作标注一起构成训练数据对。

实验关键数据

主实验(4 个真实操作任务)

任务 源演示数 训练数据来源 成功率 (%) ↑
Mug to Basket 50 (真实) 仅真实数据 ~70-80
Mug to Basket 1 Real2Edit2Real 生成 ~75-85
Pour Water 50 (真实) 仅真实数据 ~65-75
Pour Water 5 Real2Edit2Real 生成 ~65-80
Lift Box 50 (真实) 仅真实数据 ~70
Lift Box 3 Real2Edit2Real 生成 ~70-75
Scan Barcode 50 (真实) 仅真实数据 ~60-70
Scan Barcode 5 Real2Edit2Real 生成 ~65-75

消融实验(条件控制信号的贡献)

条件配置 视频质量 (FVD ↓) 策略成功率 ↑ 说明
仅深度 中等 中等 基础空间控制
深度 + 动作 提升 提升 运动一致性改善
深度 + 动作 + 边缘 进一步提升 进一步提升 几何边界更锐利
深度 + 动作 + 边缘 + 光线 最优 最优 完整多条件控制
无几何校正 下降 明显下降 深度信号物理不一致

关键发现

  • 数据效率提升惊人:1-5 个源演示 + Real2Edit2Real 生成 ≈ 50 个真实演示的训练效果,数据效率提升 10-50 倍
  • 深度图作为控制信号是关键:深度比 RGB 更适合作为 3D 控制接口——它天然编码了空间布局信息且对光照/纹理变化鲁棒
  • 几何校正至关重要:不做几何校正(机械臂在新位置的运动学不一致)会严重降低视频质量和策略性能
  • 多条件控制中动作信号的贡献独立于深度——它确保了运动的动力学正确性而非仅仅空间正确性
  • 框架支持高度编辑和纹理编辑的扩展——展示了作为通用数据生成框架的潜力

亮点与洞察

  • 3D-2D 桥接的优雅设计:将 3D 编辑的空间精确性与 2D 视频生成的视觉保真度结合,深度图作为桥梁的设计既自然又有效。这个思路可以迁移到其他需要"精确 3D 控制 + 逼真 2D 渲染"的应用中
  • "少量真实 + 大量生成"的范式:与 sim-to-real 不同,Real2Edit2Real 的起点是真实数据(不是模拟器),因此生成的数据天然更接近真实域——这种"从真实到生成再到真实"的闭环更容易被实际系统采用
  • 多条件控制的系统性设计:不是简单堆叠条件信号,而是每个信号都有明确的控制目标——深度控制空间、动作控制运动、边缘控制结构、光线控制视角,分工明确
  • 实用性极强:在实际机器人部署中,减少数据收集需求 50 倍意味着一个新任务可以从"需要一天的演示收集"变为"只需几分钟"

局限与展望

  • 当前要求源演示具有多视角录制——单视角场景下 3D 重建质量可能不足
  • 视频生成模型的推理速度较慢——生成一段多视角演示视频可能需要数分钟,大规模数据生成需要 GPU 集群
  • 空间编辑范围受限于源场景的背景——当物体移动到源演示中未出现的背景区域时,视频生成需要"想象"新背景
  • 仅验证了桌面操作任务,移动操作(mobile manipulation)和灵活手(dexterous hand)场景有待探索
  • 操作类型的泛化性有限——当前框架适合位置变化的增强,但对操作策略本身的变化(如从抓取变为推动)不能直接处理
  • 视频生成的保真度仍存在极限——在复杂遮挡、透明物体、变形物体等场景中可能出现伪影

相关工作与启发

  • vs MimicGen (Mandlekar et al. 2023):MimicGen 通过在模拟器中对源演示做空间变换来生成数据,需要完整的模拟环境。Real2Edit2Real 直接从真实数据出发,不需要模拟器
  • vs GenAug (Chen et al. 2023):GenAug 使用扩散模型对操作图像做增强,但只做 2D 级别的变换,无法改变 3D 空间配置。Real2Edit2Real 的 3D 编辑提供了真正的空间变化
  • vs RoboCasa:RoboCasa 是纯模拟数据生成方案,受限于 sim-to-real gap。Real2Edit2Real 的"真实数据为起点"的策略避免了这个问题
  • 启发:类似框架可以应用于自动驾驶(从少量真实驾驶轨迹生成覆盖更多路况的训练数据)和 AR/VR(从少量真实交互生成多样化的训练演示)

评分

  • 新颖性: ⭐⭐⭐⭐ 3D 编辑 + 深度引导视频生成的组合是新颖的;"3D 控制接口"的概念提供了新的思考框架
  • 实验充分度: ⭐⭐⭐⭐ 4 个真实任务、多策略架构验证、详细消融,数据效率的提升令人信服
  • 写作质量: ⭐⭐⭐⭐ 框架图清晰,三阶段管线容易理解,演示视频有说服力
  • 价值: ⭐⭐⭐⭐⭐ 直接解决了机器人学习中最大的瓶颈之一(数据收集成本),10-50 倍的数据效率提升有重大实际意义

相关论文