跳转至

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

会议: NeurIPS 2025 arXiv: 2501.01895 代码: 待确认 领域: 3d_vision 关键词: embodied AI, video diffusion, multi-view generation, robot manipulation, 4D Gaussian Splatting

一句话总结

EnerVerse 是一个生成式机器人基础模型,通过 chunk-wise 自回归视频扩散 + 稀疏上下文记忆 + 多视角生成先验构建 4D 具身空间,结合 4DGS 数据飞轮缩小 Sim2Real 差距,最终通过策略头将 4D 世界表示转化为物理动作,在 LIBERO 基准上达到 SOTA。

背景与动机

  • 视频生成模型在时空想象力方面取得重大进展,自然可联想到将其用于机器人动作规划
  • 已有方法简单地将通用视频生成模型适配到机器人任务,忽略了 2D 视频表示空间与 3D 机器人环境之间的巨大鸿沟
  • 多视角观测对机器人操作至关重要(解决遮挡和运动歧义),但多相机标定采集成本高昂
  • Sim2Real 差距仍是模拟数据大规模应用的核心瓶颈

核心问题

如何构建一个既能生成高质量 4D 具身空间又能直接转化为物理动作的统一框架,并解决多视角数据稀缺和 Sim2Real 差距问题?

方法详解

1. Chunk-wise 自回归视频扩散

定义未来空间最小单元为 chunk。模型反复预测下一个 chunk 扩展空间。训练时优化去噪损失:

\[\min_{\theta} \mathbb{E}_{t, \mathbf{z}, \boldsymbol{\epsilon}} \|\boldsymbol{\epsilon} - \boldsymbol{\epsilon}_{\theta}(\mathbf{z}_t^{1:M}, \mathbf{o}_t^{1:K}, t)\|_2^2\]

推理时新生成的去噪帧成为下一迭代的干净输入,检测到 EOS 帧时终止。采用 v-prediction。

2. 稀疏记忆机制

训练时用稀疏采样帧(丢弃约 80%)作为上下文,而非连续帧。好处: - 减少冗余,促进模型学习更深层的 chunk 预测能力 - 增强对分布外(OOD)场景的鲁棒性 - 推理时通过滑动窗口平滑过渡,节省 GPU 显存

消融实验:无稀疏记忆时 LIBERO-Long 仅 30.8 分 vs 有稀疏记忆 73 分。

3. 多视角扩散生成

将单视角扩展为多视角视频生成: - 用射线方向图(ray direction map)编码相机内外参 - 跨视角注意力保证几何一致性 - 时间注意力捕捉场景动态

预训练在多视角数据上建立 3D 先验,推理时单相机+深度 warp 即可生成辅助视角。

4. EnerVerse-D 数据飞轮

结合生成模型与 4D Gaussian Splatting: 1. 从稀疏真实观测+生成模型补齐多视角视频 2. 用 4DGS 重建 4D 场景,渲染高精度图像 3. 渲染图像反馈给生成模型继续优化,形成迭代循环

5. EnerVerse-A 策略头

从 UNet 中间层第一次去噪步提取视觉特征 E,缓存后接 DiT 动作头。预测 action chunk(tau 步 x 7 维 delta pose)。单 RTX 4090 约 280ms 推理 8 步动作。

实验关键数据

LIBERO 基准

模型 视觉输入 Spatial Object Goal Long Avg
Diffusion Policy S-RGB 78.3 92.5 68.3 50.5 72.4
OpenVLA S-RGB 84.7 88.4 79.2 53.7 76.5
MAIL S-RGB x2 76.0 90.0 82.0 78.0 81.5
EnerVerse S-RGB 92.1 93.2 78.1 73.0 84.1
EnerVerse RGB+2Render 91.2 97.7 85.0 80.0 88.5

CALVIN (ABC -> D)

方法 输入 1 2 3 4 5 Avg Len
RoboFlamingo S-RGB, G-RGB 82.4 61.9 46.6 33.1 23.5 2.47
GR-1 S-RGB, G-RGB, P 85.4 71.2 59.6 49.7 40.1 3.06
EnerVerse S-RGB 90.8 73.0 57.3 43.7 35.6 3.00

训练策略消融(LIBERO-Spatial)

策略 成功率
从头训练 Failed
加载通用预训练 79
单阶段联合训练 86.3
两阶段微调 92.1

亮点

  • Chunk-wise 自回归+稀疏记忆的组合实现了理论上无限长序列生成
  • 多视角扩散先验使单相机部署即可受益于 3D 理解能力
  • 4DGS 数据飞轮优雅地解决了 Sim2Real 差距问题
  • 统一框架:同一 backbone 同时支持视频生成和动作预测

局限性 / 可改进方向

  • 视频生成不可避免产生 artifact,高动态机器人场景尤为明显
  • 渲染视角目前靠启发式设定,未集成 Next-Best-View 方法
  • 视频生成质量与控制成功率之间的关系理解不够深入
  • 数据飞轮需要离线运行,未实现在线自适应

与相关工作的对比

  • vs AVID: 简单适配 DynamicCrafter,缺少 3D 先验;EnerVerse 多视角预训练提供空间理解
  • vs Diffusion Policy: 直接动作学习,无视频生成先验;EnerVerse 利用视频想象力增强策略
  • vs OpenVLA: 7B VLA 模型,EnerVerse 以更小模型超越其性能
  • vs GR-2: 同为视频预训练,但 GR-2 停留在 2D;EnerVerse 扩展到 4D

启发与关联

  • 视频生成作为机器人策略学习的预训练任务,是一个有前景的范式
  • 4DGS 数据飞轮的思路可推广到其他需要跨域数据增强的领域
  • 单相机+深度 warp 生成多视角是一种实用的部署策略

评分

  • ⭐ 新颖性: 4/5 — 4D 具身空间生成框架设计完整,数据飞轮有创意
  • ⭐ 实验充分度: 4.5/5 — LIBERO/CALVIN/真实世界全面验证,消融详尽
  • ⭐ 写作质量: 3.5/5 — 内容丰富但略显冗长,核心贡献可更突出
  • ⭐ 价值: 4/5 — 为具身智能提供了视频生成+策略的统一范式