Geometry-aware 4D Video Generation for Robot Manipulation¶

会议: ICLR 2026
arXiv: 2507.01099
代码: https://robot4dgen.github.io/
领域: 3D视觉 / 机器人操控
关键词: 4D视频生成, 跨视角一致性, pointmap, 机器人操控, 视频扩散模型

一句话总结¶

提出几何感知的4D视频生成框架，通过跨视角 pointmap 对齐监督在视频扩散模型中强制多视角3D一致性，无需相机位姿输入即可从新视角生成时空对齐的未来 RGB-D 序列，并可直接用 FoundationPose 从生成视频中恢复机器人末端执行器轨迹。

研究背景与动机¶

领域现状：视频生成模型作为环境动态模型在机器人规划中展现潜力——通过预测未来视觉观测来模拟交互结果。但生成的视频需要同时具备时间一致性（运动连贯）和3D一致性（跨视角几何正确）。
现有痛点：(a) 基于像素的视频模型擅长短期运动但缺乏3D结构理解，导致闪烁/变形/物体消失；(b) 3D感知方法（如4D Gaussian）能保证几何但受限于简单场景（单物体白背景）；(c) 即使微小的相机视角变化就能让视觉-运动策略失效（distribution shift）。
核心矛盾：时间一致性来自预训练视频模型的先验，3D一致性需要显式几何约束——两个目标使用不同的表示和优化方式，难以统一。
本文要解决什么？ 在保持视频扩散模型时间一致性的同时，通过几何监督实现跨视角3D一致性，使生成的4D视频可以直接用于机器人控制。
切入角度：受 DUSt3R 启发，将跨视角 pointmap 对齐引入视频生成——模型学习在参考视角坐标系中预测另一视角的 pointmap，从而学到共享的3D场景表示。
核心idea一句话：用跨视角 pointmap 对齐监督来教视频扩散模型学3D一致性，无需推理时输入相机位姿。

方法详解¶

整体框架¶

双视角输入：每个视角的 RGB-D 历史帧。模型联合预测两个分支：(1) RGB 视频（每个视角独立预测）；(2) Pointmap 序列（参考视角 \(v_n\) 在自身坐标系预测，另一视角 \(v_m\) 的预测投影到 \(v_n\) 坐标系）。通过跨视角 pointmap 对齐损失保证3D一致性。推理时从新视角预测，不需要相机位姿。

关键设计¶

跨视角 Pointmap 对齐监督:
做什么：让两个视角的 pointmap 预测在参考视角坐标系中对齐
核心思路：参考视角 \(v_n\) 预测自身 pointmap \(\mathbf{X}^n\)，另一视角 \(v_m\) 预测投影到 \(v_n\) 坐标系的 pointmap \(\mathbf{X}^{m \to n}\)。两者通过扩散损失联合监督。训练时需要相机位姿定义投影关系，但推理时模型已内化投影能力，不需要位姿输入
设计动机：DUSt3R 已证明跨视角 pointmap 预测可以学到3D结构——将此思想从静态图像扩展到视频
多视角交叉注意力（MV Cross-Attention）:
做什么：Pointmap 预测的 U-Net 解码器中加入跨视角交叉注意力
核心思路：使用两个独立权重的 U-Net 解码器（架构相同），参考视角的中间特征通过交叉注意力传递给另一视角的解码器，帮助后者在参考坐标系中准确预测 pointmap
设计动机：Pointmap 预测是不对称的（一个在自身坐标系，一个在参考坐标系），需要信息传递机制
Pointmap VAE:
做什么：将 pointmap 编码到潜在空间做扩散
核心思路：从预训练 RGB VAE（SVD）初始化，微调适配 pointmap 数据的分布。在潜在空间做扩散比直接在3D坐标上做更稳定
设计动机：复用预训练视频模型的潜在空间结构
从4D视频恢复机器人轨迹:
做什么：用 FoundationPose 从生成的 RGB-D 视频中跟踪末端执行器位姿
核心思路：每个视角独立跟踪，选置信度高的结果。夹爪开合状态通过左右手指点云质心距离判断
设计动机：避免训练专门的逆动力学模型，利用现成的6DoF位姿跟踪器直接从视频提取动作

损失函数 / 训练策略¶

\(\mathcal{L} = \sum_{t'} [\mathcal{L}^n_{\text{diff}}(t') + \mathcal{L}^m_{\text{diff}}(t') + \lambda \mathcal{L}_{\text{3D-diff}}(t')]\)，\(\lambda=1\)。RGB 损失训练时间一致性，Pointmap 损失训练3D一致性。从 SVD 预训练权重初始化。

实验关键数据¶

主实验¶

LBM 仿真 3个操控任务（跨视角一致性+视频质量+深度质量）：

方法	mIoU↑ (跨视角)	FVD-nn↓ (RGB)	AbsRel-nn↓ (深度)
SVD	—	977	—
4D Gaussian	0.39	1208	0.20
Ours w/o MV attn	0.41	497	0.15
Ours	0.70	411	0.06

机器人操控成功率（新视角）：

任务	Ours	4D Gaussian	SVD
StoreCerealBox	67%	56%	44%
PutSpatula	78%	44%	56%
PlaceApple	44%	22%	11%

消融实验¶

配置	mIoU↑	说明
去掉 MV Cross-Attention	0.41→0.70	交叉注意力对跨视角一致性贡献巨大
去掉 Pointmap 分支	无3D	退化为标准 SVD，无法做跨视角
去掉 RGB 分支微调	降低	时间一致性下降
新视角泛化	保持	推理时可用训练未见的相机视角

关键发现¶

跨视角 mIoU 从 SVD 的无法计算→4D Gaussian 的 0.39→本文的 0.70，证明 pointmap 对齐监督的有效性
不需要推理时输入相机位姿——模型内化了跨视角投影能力
从生成视频直接提取的末端执行器轨迹可执行操控任务，真实世界也可工作
长时序双臂任务（PlaceApple，需协调两臂）可达 44% 成功率

亮点与洞察¶

推理时免位姿：训练用位姿做监督，推理不需要——这对工业部署极有价值，免去了新相机位置的标定
DUSt3R→视频的自然扩展：将静态双视图的 pointmap 对齐扩展到时序视频，思路自然但效果显著
视频即策略：用现成位姿跟踪器从生成视频恢复机器人轨迹，避免了训练逆动力学模型的复杂性
多视角交叉注意力的不对称设计：两个解码器独立权重+单向交叉注意力，反映了参考视角和投影视角的几何不对称

局限性 / 可改进方向¶

仅用双视角，未扩展到更多视角；理论上 pointmap 对齐可推广到任意多视角但计算成本会增加
基于 SVD 的视频生成质量有限（14帧），长时序任务需要多步拼接
夹爪开合状态的判断依赖固定阈值，缺乏学习机制
真实世界验证仅用2台相机，视角变化不大，未测试剧烈视角偏移
操控成功率在复杂任务上仍有限（PlaceApple: 44%），与直接行为克隆相比竞争力不明

评分¶

新颖性: ⭐⭐⭐⭐ 跨视角 pointmap 对齐引入视频生成是新颖的，但各组件（SVD+DUSt3R+FoundationPose）都是已有的
实验充分度: ⭐⭐⭐⭐ 仿真+真实+消融充分，但操控任务数量有限
写作质量: ⭐⭐⭐⭐ 方法描述清晰，公式严谨
价值: ⭐⭐⭐⭐ 对视频生成驱动的机器人操控有实质推进