EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation¶

会议: NeurIPS 2025 arXiv: 2501.01895 代码: 待确认领域: 3d_vision 关键词: embodied AI, video diffusion, multi-view generation, robot manipulation, 4D Gaussian Splatting

一句话总结¶

EnerVerse 是一个生成式机器人基础模型，通过 chunk-wise 自回归视频扩散 + 稀疏上下文记忆 + 多视角生成先验构建 4D 具身空间，结合 4DGS 数据飞轮缩小 Sim2Real 差距，最终通过策略头将 4D 世界表示转化为物理动作，在 LIBERO 基准上达到 SOTA。

背景与动机¶

视频生成模型在时空想象力方面取得重大进展，自然可联想到将其用于机器人动作规划
已有方法简单地将通用视频生成模型适配到机器人任务，忽略了 2D 视频表示空间与 3D 机器人环境之间的巨大鸿沟
多视角观测对机器人操作至关重要（解决遮挡和运动歧义），但多相机标定采集成本高昂
Sim2Real 差距仍是模拟数据大规模应用的核心瓶颈

核心问题¶

如何构建一个既能生成高质量 4D 具身空间又能直接转化为物理动作的统一框架，并解决多视角数据稀缺和 Sim2Real 差距问题？

方法详解¶

1. Chunk-wise 自回归视频扩散¶

定义未来空间最小单元为 chunk。模型反复预测下一个 chunk 扩展空间。训练时优化去噪损失：

\[\min_{\theta} \mathbb{E}_{t, \mathbf{z}, \boldsymbol{\epsilon}} \|\boldsymbol{\epsilon} - \boldsymbol{\epsilon}_{\theta}(\mathbf{z}_t^{1:M}, \mathbf{o}_t^{1:K}, t)\|_2^2\]

推理时新生成的去噪帧成为下一迭代的干净输入，检测到 EOS 帧时终止。采用 v-prediction。

2. 稀疏记忆机制¶

训练时用稀疏采样帧（丢弃约 80%）作为上下文，而非连续帧。好处： - 减少冗余，促进模型学习更深层的 chunk 预测能力 - 增强对分布外（OOD）场景的鲁棒性 - 推理时通过滑动窗口平滑过渡，节省 GPU 显存

消融实验：无稀疏记忆时 LIBERO-Long 仅 30.8 分 vs 有稀疏记忆 73 分。

3. 多视角扩散生成¶

将单视角扩展为多视角视频生成： - 用射线方向图（ray direction map）编码相机内外参 - 跨视角注意力保证几何一致性 - 时间注意力捕捉场景动态

预训练在多视角数据上建立 3D 先验，推理时单相机+深度 warp 即可生成辅助视角。

4. EnerVerse-D 数据飞轮¶

结合生成模型与 4D Gaussian Splatting： 1. 从稀疏真实观测+生成模型补齐多视角视频 2. 用 4DGS 重建 4D 场景，渲染高精度图像 3. 渲染图像反馈给生成模型继续优化，形成迭代循环

5. EnerVerse-A 策略头¶

从 UNet 中间层第一次去噪步提取视觉特征 E，缓存后接 DiT 动作头。预测 action chunk（tau 步 x 7 维 delta pose）。单 RTX 4090 约 280ms 推理 8 步动作。

实验关键数据¶

LIBERO 基准¶

模型	视觉输入	Spatial	Object	Goal	Long	Avg
Diffusion Policy	S-RGB	78.3	92.5	68.3	50.5	72.4
OpenVLA	S-RGB	84.7	88.4	79.2	53.7	76.5
MAIL	S-RGB x2	76.0	90.0	82.0	78.0	81.5
EnerVerse	S-RGB	92.1	93.2	78.1	73.0	84.1
EnerVerse	RGB+2Render	91.2	97.7	85.0	80.0	88.5

CALVIN (ABC -> D)¶

方法	输入	1	2	3	4	5	Avg Len
RoboFlamingo	S-RGB, G-RGB	82.4	61.9	46.6	33.1	23.5	2.47
GR-1	S-RGB, G-RGB, P	85.4	71.2	59.6	49.7	40.1	3.06
EnerVerse	S-RGB	90.8	73.0	57.3	43.7	35.6	3.00

训练策略消融（LIBERO-Spatial）¶

策略	成功率
从头训练	Failed
加载通用预训练	79
单阶段联合训练	86.3
两阶段微调	92.1

亮点¶

Chunk-wise 自回归+稀疏记忆的组合实现了理论上无限长序列生成
多视角扩散先验使单相机部署即可受益于 3D 理解能力
4DGS 数据飞轮优雅地解决了 Sim2Real 差距问题
统一框架：同一 backbone 同时支持视频生成和动作预测

局限性 / 可改进方向¶

视频生成不可避免产生 artifact，高动态机器人场景尤为明显
渲染视角目前靠启发式设定，未集成 Next-Best-View 方法
视频生成质量与控制成功率之间的关系理解不够深入
数据飞轮需要离线运行，未实现在线自适应

与相关工作的对比¶

vs AVID: 简单适配 DynamicCrafter，缺少 3D 先验；EnerVerse 多视角预训练提供空间理解
vs Diffusion Policy: 直接动作学习，无视频生成先验；EnerVerse 利用视频想象力增强策略
vs OpenVLA: 7B VLA 模型，EnerVerse 以更小模型超越其性能
vs GR-2: 同为视频预训练，但 GR-2 停留在 2D；EnerVerse 扩展到 4D

启发与关联¶

视频生成作为机器人策略学习的预训练任务，是一个有前景的范式
4DGS 数据飞轮的思路可推广到其他需要跨域数据增强的领域
单相机+深度 warp 生成多视角是一种实用的部署策略

评分¶

⭐ 新颖性: 4/5 — 4D 具身空间生成框架设计完整，数据飞轮有创意
⭐ 实验充分度: 4.5/5 — LIBERO/CALVIN/真实世界全面验证，消融详尽
⭐ 写作质量: 3.5/5 — 内容丰富但略显冗长，核心贡献可更突出
⭐ 价值: 4/5 — 为具身智能提供了视频生成+策略的统一范式