ICCV 2025 3D视觉 4D世界模型具身智能视频扩散模型 RGB-DN 深度法线联合预测机器人规划

TesserAct: Learning 4D Embodied World Models¶

会议: ICCV 2025
arXiv: 2504.20995
领域: 3D视觉
关键词: 4D世界模型, 具身智能, 视频扩散模型, RGB-DN, 深度法线联合预测, 机器人规划

一句话总结¶

提出 TesserAct——一种 4D 具身世界模型，通过训练视频生成模型联合预测 RGB、深度和法线视频，再转换为高质量 4D 场景，实现空间-时间一致的 3D 世界动态模拟和机器人动作规划。

研究背景与动机¶

世界模型是具身智能的核心组件。然而现有世界模型存在根本性局限：

2D 像素空间操作：UniPi、SuSIE 等在 2D 建模，无法提供精确深度和位姿信息
不真实的预测：2D 模型可能产生跨时间步的物体形状不一致
4D 建模高成本：直接在 3D+时间维度生成输出计算开销极大
缺乏 4D 标注数据：大规模机器人数据集普遍缺少深度和法线标注

核心思路：用 RGB-DN（RGB+深度+法线）视频作为 4D 世界的轻量中间表示，利用预训练视频模型高效构建 4D 世界模型。

方法详解¶

整体框架¶

四个核心组件：4D 数据集构建 → RGB-DN 生成模型 → 4D 场景重建 → 动作规划

关键设计¶

1. 4D 具身视频数据集（~285k 视频）

RLBench 合成（80k）：20个任务×1000实例×4视角，精确深度+DSINE法线，Colosseum随机化
RT1 Fractal 真实（80k）：RollingDepth 深度+Marigold 法线
Bridge（25k）：同上标注
SomethingSomethingV2（100k）：人手交互，丰富指令多样性

2. 模型架构（基于 CogVideoX 微调）

3D VAE 分别编码 RGB/深度/法线（不微调 VAE）
三个独立 InputProj 提取模态嵌入，求和输入 DiT 骨干
RGB 保留原始路径；深度法线通过 Conv3D+DNProj 额外解码
零初始化关键设计：新模块全部零初始化，训练起点=CogVideoX
文本条件："[动作指令] + [机器人臂名称]"
多分辨率训练，49帧预测

3. 4D 场景重建

法线积分优化深度：透视相机模型约束对数深度，迭代求解二次损失
RAFT 光流分割动态/静态/背景区域
时间一致性损失：光流引导帧间深度一致（动态/背景分别加权）
正则化损失：约束优化深度接近生成深度
总损失 = 空间一致性 + 时间一致性 + 正则化

4. 动作规划

PointNet 编码 4D 点云 → 结合文本嵌入 → MLP 输出 7-DoF 动作

损失函数¶

视频生成：标准去噪损失，联合 RGB+深度+法线
4D 重建：L_s(法线积分) + L_c(光流时间一致) + L_r(深度正则)

实验关键数据¶

4D 场景生成¶

真实域（RT1+Bridge）：

方法	AbsRel↓	法线Mean↓	Chamfer↓
OpenSora	31.41	41.82	0.3013
CogVideoX	26.17	19.53	0.2191
TesserAct	22.07	15.74	0.2030

合成域（RLBench）：

方法	AbsRel↓	法线Mean↓	Chamfer↓
CogVideoX	19.81	20.36	0.2884
TesserAct	16.02	14.75	0.0811

机器人动作规划（RLBench 成功率%）¶

方法	close box	open drawer	open jar	open micro	put knife
Image-BC	53	4	0	5	0
UniPi	81	67	38	72	66
TesserAct	88	80	44	70	70

新视角合成¶

方法	PSNR	SSIM	时间
SoM	10.94	24.02	~2h
TesserAct	12.99	42.62	~1min

关键发现¶

联合预测 RGB-DN 显著优于先生成 RGB 再后处理
法线积分使平面重建不再倾斜
一致性损失和正则化对 4D 重建都至关重要
模型能泛化到未见场景和新物体

亮点与洞察¶

RGB-DN 中间表示：既保留 3D 几何信息又兼容视频模型，高效训练
零初始化策略：精心保留预训练模型先验知识
法线辅助深度优化：补偿仿射不变深度的不足
跨机器人平台泛化：文本指定机器人臂，单模型适配多平台
自动 4D 标注：现成估计器将视频数据集转化为 4D 训练数据
光流引导动静分离：在 4D 重建中自然分离，分别约束

局限性¶

RGB 质量略低于纯 RGB 微调（SSIM 下降约 3.5%）
深度法线来自估计器而非传感器，存在噪声
仅固定视角预测，非真正多视角 4D 生成
仿射不变深度缺乏绝对尺度
训练数据量（~285k）与大规模视频模型有差距

评分¶

新颖性: ★★★★☆ — 首次提出 4D 具身世界模型，RGB-DN 表示新颖
技术深度: ★★★★☆ — 数据→模型→重建→规划完整闭环
实验充分度: ★★★★☆ — 真实+合成域评估，下游任务验证
实用性: ★★★★☆ — 对机器人规划有实际促进
总分: 8.5/10