Geometry-aware 4D Video Generation for Robot Manipulation¶
会议: ICLR 2026
arXiv: 2507.01099
代码: https://robot4dgen.github.io/
领域: 3D视觉 / 机器人操控
关键词: 4D视频生成, 跨视角一致性, pointmap, 机器人操控, 视频扩散模型
一句话总结¶
提出几何感知的4D视频生成框架,通过跨视角 pointmap 对齐监督在视频扩散模型中强制多视角3D一致性,无需相机位姿输入即可从新视角生成时空对齐的未来 RGB-D 序列,并可直接用 FoundationPose 从生成视频中恢复机器人末端执行器轨迹。
研究背景与动机¶
- 领域现状:视频生成模型作为环境动态模型在机器人规划中展现潜力——通过预测未来视觉观测来模拟交互结果。但生成的视频需要同时具备时间一致性(运动连贯)和3D一致性(跨视角几何正确)。
- 现有痛点:(a) 基于像素的视频模型擅长短期运动但缺乏3D结构理解,导致闪烁/变形/物体消失;(b) 3D感知方法(如4D Gaussian)能保证几何但受限于简单场景(单物体白背景);(c) 即使微小的相机视角变化就能让视觉-运动策略失效(distribution shift)。
- 核心矛盾:时间一致性来自预训练视频模型的先验,3D一致性需要显式几何约束——两个目标使用不同的表示和优化方式,难以统一。
- 本文要解决什么? 在保持视频扩散模型时间一致性的同时,通过几何监督实现跨视角3D一致性,使生成的4D视频可以直接用于机器人控制。
- 切入角度:受 DUSt3R 启发,将跨视角 pointmap 对齐引入视频生成——模型学习在参考视角坐标系中预测另一视角的 pointmap,从而学到共享的3D场景表示。
- 核心idea一句话:用跨视角 pointmap 对齐监督来教视频扩散模型学3D一致性,无需推理时输入相机位姿。
方法详解¶
整体框架¶
双视角输入:每个视角的 RGB-D 历史帧。模型联合预测两个分支:(1) RGB 视频(每个视角独立预测);(2) Pointmap 序列(参考视角 \(v_n\) 在自身坐标系预测,另一视角 \(v_m\) 的预测投影到 \(v_n\) 坐标系)。通过跨视角 pointmap 对齐损失保证3D一致性。推理时从新视角预测,不需要相机位姿。
关键设计¶
- 跨视角 Pointmap 对齐监督:
- 做什么:让两个视角的 pointmap 预测在参考视角坐标系中对齐
- 核心思路:参考视角 \(v_n\) 预测自身 pointmap \(\mathbf{X}^n\),另一视角 \(v_m\) 预测投影到 \(v_n\) 坐标系的 pointmap \(\mathbf{X}^{m \to n}\)。两者通过扩散损失联合监督。训练时需要相机位姿定义投影关系,但推理时模型已内化投影能力,不需要位姿输入
-
设计动机:DUSt3R 已证明跨视角 pointmap 预测可以学到3D结构——将此思想从静态图像扩展到视频
-
多视角交叉注意力(MV Cross-Attention):
- 做什么:Pointmap 预测的 U-Net 解码器中加入跨视角交叉注意力
- 核心思路:使用两个独立权重的 U-Net 解码器(架构相同),参考视角的中间特征通过交叉注意力传递给另一视角的解码器,帮助后者在参考坐标系中准确预测 pointmap
-
设计动机:Pointmap 预测是不对称的(一个在自身坐标系,一个在参考坐标系),需要信息传递机制
-
Pointmap VAE:
- 做什么:将 pointmap 编码到潜在空间做扩散
- 核心思路:从预训练 RGB VAE(SVD)初始化,微调适配 pointmap 数据的分布。在潜在空间做扩散比直接在3D坐标上做更稳定
-
设计动机:复用预训练视频模型的潜在空间结构
-
从4D视频恢复机器人轨迹:
- 做什么:用 FoundationPose 从生成的 RGB-D 视频中跟踪末端执行器位姿
- 核心思路:每个视角独立跟踪,选置信度高的结果。夹爪开合状态通过左右手指点云质心距离判断
- 设计动机:避免训练专门的逆动力学模型,利用现成的6DoF位姿跟踪器直接从视频提取动作
损失函数 / 训练策略¶
\(\mathcal{L} = \sum_{t'} [\mathcal{L}^n_{\text{diff}}(t') + \mathcal{L}^m_{\text{diff}}(t') + \lambda \mathcal{L}_{\text{3D-diff}}(t')]\),\(\lambda=1\)。RGB 损失训练时间一致性,Pointmap 损失训练3D一致性。从 SVD 预训练权重初始化。
实验关键数据¶
主实验¶
LBM 仿真 3个操控任务(跨视角一致性+视频质量+深度质量):
| 方法 | mIoU↑ (跨视角) | FVD-nn↓ (RGB) | AbsRel-nn↓ (深度) |
|---|---|---|---|
| SVD | — | 977 | — |
| 4D Gaussian | 0.39 | 1208 | 0.20 |
| Ours w/o MV attn | 0.41 | 497 | 0.15 |
| Ours | 0.70 | 411 | 0.06 |
机器人操控成功率(新视角):
| 任务 | Ours | 4D Gaussian | SVD |
|---|---|---|---|
| StoreCerealBox | 67% | 56% | 44% |
| PutSpatula | 78% | 44% | 56% |
| PlaceApple | 44% | 22% | 11% |
消融实验¶
| 配置 | mIoU↑ | 说明 |
|---|---|---|
| 去掉 MV Cross-Attention | 0.41→0.70 | 交叉注意力对跨视角一致性贡献巨大 |
| 去掉 Pointmap 分支 | 无3D | 退化为标准 SVD,无法做跨视角 |
| 去掉 RGB 分支微调 | 降低 | 时间一致性下降 |
| 新视角泛化 | 保持 | 推理时可用训练未见的相机视角 |
关键发现¶
- 跨视角 mIoU 从 SVD 的无法计算→4D Gaussian 的 0.39→本文的 0.70,证明 pointmap 对齐监督的有效性
- 不需要推理时输入相机位姿——模型内化了跨视角投影能力
- 从生成视频直接提取的末端执行器轨迹可执行操控任务,真实世界也可工作
- 长时序双臂任务(PlaceApple,需协调两臂)可达 44% 成功率
亮点与洞察¶
- 推理时免位姿:训练用位姿做监督,推理不需要——这对工业部署极有价值,免去了新相机位置的标定
- DUSt3R→视频的自然扩展:将静态双视图的 pointmap 对齐扩展到时序视频,思路自然但效果显著
- 视频即策略:用现成位姿跟踪器从生成视频恢复机器人轨迹,避免了训练逆动力学模型的复杂性
- 多视角交叉注意力的不对称设计:两个解码器独立权重+单向交叉注意力,反映了参考视角和投影视角的几何不对称
局限性 / 可改进方向¶
- 仅用双视角,未扩展到更多视角;理论上 pointmap 对齐可推广到任意多视角但计算成本会增加
- 基于 SVD 的视频生成质量有限(14帧),长时序任务需要多步拼接
- 夹爪开合状态的判断依赖固定阈值,缺乏学习机制
- 真实世界验证仅用2台相机,视角变化不大,未测试剧烈视角偏移
- 操控成功率在复杂任务上仍有限(PlaceApple: 44%),与直接行为克隆相比竞争力不明
相关工作与启发¶
- vs 4D Gaussian: 4D Gaussian 在简单场景效果好但对多物体复杂操控场景效果差(FVD 1208 vs 411),pointmap 方法更鲁棒
- vs SVD: 标准 SVD 无3D一致性,即使加 MV attention 也不够——需要显式几何监督
- vs DUSt3R: DUSt3R 处理静态双视图,本文扩展到时序视频序列,是自然且有效的推广
- 对机器人学习的启发:视频生成模型+位姿跟踪的两阶段方案提供了一种不需要动作标注的机器人学习路径
评分¶
- 新颖性: ⭐⭐⭐⭐ 跨视角 pointmap 对齐引入视频生成是新颖的,但各组件(SVD+DUSt3R+FoundationPose)都是已有的
- 实验充分度: ⭐⭐⭐⭐ 仿真+真实+消融充分,但操控任务数量有限
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,公式严谨
- 价值: ⭐⭐⭐⭐ 对视频生成驱动的机器人操控有实质推进