4D Visual Pre-training for Robot Learning¶

会议: ICCV 2025
arXiv: 2508.17230
代码: https://github.com/JackHck/FVP (有)
领域: 3D视觉 / 机器人学习
关键词: 点云预训练, 扩散模型, 模仿学习, 3D表示学习, 机器人操作

一句话总结¶

FVP提出将3D视觉预训练建模为"下一帧点云预测"问题，用条件扩散模型从历史帧点云预测未来帧点云来学习3D视觉表示，在12个真实世界操作任务中将DP3的平均成功率提升28%，达到SOTA水平。

背景与动机¶

当前机器人视觉表示学习主要依赖2D图像预训练（如R3M、MVP、VC-1），忽略了世界的3D本质
3D点云作为机器人操作的视觉输入已展现出比2D图像更好的效率与泛化能力（DP3、RISE等）
但互联网上大规模3D数据稀缺，难以像2D那样从web数据中训练通用3D表示
现有3D预训练方法（对比学习、masked重建）没有充分利用时序信息来理解机器人运动动态

核心问题¶

如何在缺少大规模3D数据的情况下，设计一种通用的3D视觉预训练方法来提升机器人操作性能？
预训练目标如何让视觉编码器理解物理环境的动态变化和机器人运动特征？
预训练框架能否适配不同3D编码器、不同数据集、不同机器人平台（单臂/双臂/人形）和VLA大模型？

方法详解¶

整体框架¶

FVP（4D Visual Pre-training）的核心思路是：将视觉预训练目标建模为下一帧点云预测（next-point-cloud-prediction）。具体流程分为两阶段： 1. 预训练阶段：使用3D视觉编码器将前一帧点云 $o_{t-1}$ 编码为潜在表示 $\mathbf{z}$，然后以 $\mathbf{z}$ 为条件，通过点云扩散模型从高斯噪声逐步去噪生成当前帧点云 $o_t$ 2. 下游任务微调：将预训练好的3D视觉编码器替换为下游模仿学习方法（如DP3、RISE）的编码器，端到端微调

关键设计¶

Next-Point-Cloud-Prediction目标：不同于传统的对比学习（同一时步为正对、不同时步为负对）或masked点云重建，FVP利用前一帧观测来预测后一帧点云。这使得视觉模型能学习到机器人的运动特征和环境的时序动态，捕获对模仿学习至关重要的动态行为信息
条件扩散模型：采用Point-Voxel Diffusion网络作为去噪模型。将视觉编码器输出的潜在表示 $\mathbf{z} \in \mathbb{R}^{N \times C_v}$ 与带噪点云 $o_t^T \in \mathbb{R}^{N \times 3}$ 拼接为 $o_t^{T,+} \in \mathbb{R}^{N \times (C_v+3)}$，扩散模型从中预测噪声 $\epsilon$
通用编码器接口：FVP对3D编码器类型无约束，支持PointNet++、Point Transformer、DP3 Encoder、RISE Encoder等，使其成为通用的即插即用预训练模块
灵活的预训练数据：支持in-domain（任务本身的少量演示数据）和out-of-domain（如RoboMind大规模公开数据集）预训练

损失函数 / 训练策略¶

预训练损失：标准扩散模型的 $L_2$ 噪声预测损失
$$\mathcal{L} = \mathbb{E}_{\epsilon \sim \mathcal{N}(0, \mathbf{I})} \left[ \| \epsilon - \epsilon_\theta(o_t^{T,+}, T) \|_2^2 \right]$$
下游微调：将预训练编码器初始化到DP3/RISE中，端到端微调（不冻结编码器）。消融实验表明冻结编码器会因domain gap显著降低性能
预训练使用前一帧（1 frame）作为条件输入效果最好，增加更多历史帧反而不利

实验关键数据¶

仿真实验（Adroit + MetaWorld）¶

方法	In-domain平均提升	Out-of-domain平均提升
FVP (DP3)	+16.9%	+24.7%

FVP在Adroit和MetaWorld基准上均超越PointMAE、STRL、C2P等3D预训练方法，也超越R3M和MVP等2D预训练方法。

真实世界实验（12个任务，4类机器人）¶

任务	DP3	DP3+FVP	RISE+FVP
PickSquare	14/20	20/20	20/20
PlaceBottle	13/20	20/20	19/20
PickPlace	11/20	17/20	17/20
FlipCup	10/20	16/20	14/20
Assembly	6/20	13/20	13/20
ArtiManip	7/20	16/20	13/20

FVP在真实世界任务上实现15%~55%的绝对成功率提升。

2D预训练 vs FVP（使用DP3策略生成器）¶

方法	平均
R3M	12.5/20
MVP	15.5/20
MAE (Soup-1M+100 DoH)	15.3/20
DP3+FVP	16.4/20

VLA模型（RDT-1B）提升效果¶

输入方式	PickSquare	PlaceBottle	PutBox	StackBowl	WipePlate
2D Image	12/20	10/20	6/20	8/20	3/20
2D Image + R3M	15/20	12/20	7/20	11/20	4/20
3D Point Cloud	14/20	12/20	9/20	13/20	4/20
3D + FVP预训练	18/20	17/20	9/20	16/20	5/20

消融实验要点¶

历史帧 vs 当前帧条件：使用前一帧（历史帧）作为条件比用当前帧效果明显更好（如PickSquare: 20/20 vs 15/20），说明时序信息对预训练至关重要
冻结 vs 微调编码器：冻结预训练编码器在下游任务上性能急剧下降（如PickSquare: 20/20 → 11/20），因为out-of-domain与in-domain存在gap，端到端微调是必要的
历史帧数量：1帧效果最好，2/3/4帧随数量增加性能下降（PickSquare: 20→19→17→15），过多历史信息引入噪声

亮点¶

新颖的预训练范式：首次将"下一帧点云预测"作为3D视觉预训练目标，自然地引入时序动态信息，比对比学习和masked重建更适合机器人任务
通用性极强：支持任意3D编码器（PointNet++、Point Transformer、DP3 Encoder），适配多种机器人平台（单臂+夹爪/灵巧手、双臂、人形机器人），可扩展到VLA大模型
大规模真实世界验证：横跨12个真实世界操作任务、4种机器人形态，提升幅度显著且一致
方法简洁有效：核心思想直觉清晰、实现简单，作为即插即用模块可直接增强现有3D模仿学习方法

局限性 / 可改进方向¶

依赖点云数据：需要带深度/点云信息的数据集，Open-X-Embodiment等大规模开源数据集缺少相机参数和深度信息，无法直接使用
预训练数据规模受限：由于3D数据稀缺，目前主要在in-domain小数据集或RoboMind上预训练，尚未验证真正web-scale的大规模预训练效果
需要端到端微调：冻结编码器性能大幅下降，说明预训练表示未必完全通用，存在domain gap
VLA提升有限：在语言理解和长程任务上的提升相对较小（如长程任务仅从0/20提升到3/20），3D信息对这类高层语义能力的帮助有限

与相关工作的对比¶

维度	FVP	DP3	RISE
预训练	✅ 下一帧点云预测	❌ 无预训练	❌ 无预训练
输入	3D点云	3D点云	3D点云
编码器	通用（支持多种）	轻量DP3 Encoder	稀疏卷积+Transformer
定位	预训练模块	端到端策略	端到端策略

vs PointMAE/STRL/C2P（3D预训练方法）：这些方法基于masked重建或对比学习，没有利用时序信息。FVP通过预测下一帧引入动态信息，在仿真和真实任务上均显著超越
vs R3M/MVP（2D预训练方法）：虽然预训练数据量远大于FVP（>300M），但2D表示在3D操作任务上不如FVP的3D预训练表示有效

启发与关联¶

"下一X预测"范式的通用性：LLM中的next-token-prediction、视频中的next-frame-prediction、这里的next-point-cloud-prediction，预测下一时刻状态作为自监督目标在不同模态中都非常有效
3D vs 2D之争：本文再次证明3D点云输入对机器人操作任务的优势，尤其在灵巧手等需要精细3D空间感知的场景
预训练+微调范式在机器人领域的潜力：随着RoboMind等3D机器人数据集的出现，大规模3D预训练有望成为新趋势
可拓展到其他3D任务：next-point-cloud-prediction目标可能也适用于自动驾驶、3D场景理解等需要动态感知的方向

评分¶

新颖性: ⭐⭐⭐⭐ 将next-prediction范式引入3D点云预训练是新颖的贡献，但扩散模型本身是已有工具
实验充分度: ⭐⭐⭐⭐⭐ 12个真实任务、4种机器人、仿真+真实、多种编码器、VLA扩展、详尽消融
写作质量: ⭐⭐⭐⭐ 结构清晰、实验组织有条理，部分符号和描述可以更简洁
价值: ⭐⭐⭐⭐⭐ 简洁有效的通用方法、大规模真实验证、对3D机器人学习社区有重要参考价值