3D-MVP: 3D Multiview Pretraining for Robotic Manipulation¶

会议: CVPR 2025
arXiv: 2406.18158
代码: https://jasonqsy.github.io/3DMVP
领域: 机器人学 / 自监督学习 / 3D视觉预训练
关键词: Masked Autoencoder, Multiview Pretraining, Robotic Manipulation, RVT, Objaverse

一句话总结¶

提出3D-MVP，将Masked Autoencoder预训练从2D扩展到3D多视角设定——在Objaverse的200K个3D物体上预训练RVT的多视角Transformer编码器，下游微调后在RLBench上平均成功率从62.9%提升到67.5%，在COLOSSEUM上显著提升对纹理、大小、光照等环境变化的鲁棒性。

背景与动机¶

视觉预训练（如MAE on Ego4D）已被证明对机器人任务有效，但现有方法只在2D图像上预训练。然而最先进的操作方法（如RVT、PerAct、Act3D）都构建显式3D表示来做决策，2D预训练的特征无法直接迁移到这些3D架构中——因为它们没有标准的2D视觉编码器。另一方面，大规模3D数据集（Objaverse 800K+物体）已可用，但缺乏机器人标注。如何利用这些大规模3D数据为3D操作策略做预训练是一个未填补的空白。

核心问题¶

如何将MAE预训练从2D扩展到3D，使其兼容基于多视角3D表示的机器人操作方法（如RVT），从而利用大规模3D物体数据集提升操作策略的性能和泛化能力？

方法详解¶

整体框架¶

两阶段流程： 1. 预训练：将RVT的多视角Transformer拆分为视觉编码器\(\mathcal{E}\)和动作解码器\(\mathcal{D}\)。在Objaverse 3D物体上渲染5个正交虚拟视角的RGBD图像，随机掩码75%的token，训练编码器重建原始多视角图像 2. 微调：丢弃MAE解码器，将预训练的编码器\(\mathcal{E}\)与动作解码器\(\mathcal{D}\)连接，在操作演示数据上端到端微调

关键设计¶

多视角MAE预训练：核心idea是让编码器通过跨视角信息融合来重建被掩码的patch——迫使模型理解3D空间关系。5个正交虚拟相机（上、左、右、前、后）产生10通道虚拟图像（RGB+Depth+世界坐标+相机坐标），token化为\(5N\)个patch后统一送入Transformer
编码器-解码器拆分：原始RVT是端到端的，输入包含语言指令并输出动作。为适配无标注的3D数据集预训练，将RVT拆分为仅处理视觉的编码器（8层Transformer）和轻量MAE解码器（2层），预训练时不需要语言或动作标注
大规模3D数据集利用：从Objaverse采样200K高质量3D模型，直接渲染为RVT所用的正交虚拟视图格式。预训练数据与下游任务完全无关，纯粹学习3D物体的视觉理解
RGB-only掩码策略：仅掩码RGB通道（保留Depth和坐标通道），而非掩码所有通道。实验发现掩码所有通道使预训练任务过难，反而降低下游性能（类似MAE中掩码比例>80%的情况）

损失函数 / 训练策略¶

预训练：像素级L2重建损失 \(\mathcal{L}_{recon} = \frac{1}{5WH}\sum_{i=1}^{5}\sum_{p}\|I_i(p) - \tilde{I}_i(p)\|^2\) - 8×V100，15 epochs，AdamW (lr=1e-4, wd=0.01)，batch 3，mask ratio 0.75

微调：标准RVT训练设定 - 8×V100，15 epochs，Lamb优化器 (lr=1e-4)，batch 3，2000步warmup

实验关键数据¶

RLBench（18任务平均成功率）¶

方法	平均成功率
Image-BC (CNN)	1.3%
PerAct	49.4%
RVT（从头训练）	62.9%
3D-MVP	67.5% (+4.6%)

部分任务提升显著：Insert Peg 11.2→20.0, Put in Cupboard 49.6→60.0, Screw Bulb 48.0→60.0

COLOSSEUM（泛化鲁棒性）¶

3D-MVP在大多数环境扰动下优于RVT和2D预训练方法（MVP、R3M）。特别是在接收物体的纹理/大小变化、操作物体大小变化、光照颜色和桌面颜色变化时提升明显。在较难的"Receptacle Color"和"Size Distraction"扰动下，3D-MVP较RVT基线分别提升了15%和12%。这说明3D预训练不仅提升性能，更重要的是增强了对视觉干扰的鲁棒性。相比之下，2D预训练方法在COLOSSEUM上甚至不如从头训练的RVT，说明2D特征无法有效迁移到3D操作架构。2D方法的失败原因可能在于：RVT的多视角Transformer将输入投影为虚拟正交视角后做3D特征融合，而2D预训练的特征缺乏跨视角一致性。

消融实验要点¶

架构 vs 预训练：不做预训练直接微调拆分后的架构=62.9%（与RVT相同），证明提升来自预训练而非架构改变
Objaverse(200K) vs Objaverse(18K)：67.6% vs 65.3%，数据量越大越好
Objaverse vs 3D-FRONT：67.6% vs 63.6%，物体级数据集优于房间级，多样性和规模是关键
在RLBench上预训练：达到67.5%但在COLOSSEUM上泛化差——在自身场景预训练会过拟合
RGB掩码 vs 全通道掩码：67.6% vs 64.4%，仅掩码RGB效果更好

亮点¶

首次将MAE预训练扩展到3D多视角设定用于机器人操作——填补了2D预训练与3D操作方法之间的空白
即插即用设计：编码器-解码器拆分使预训练与下游分离，编码器预训练后可直接接RVT的动作解码器
丰富的消融研究：系统性研究了数据集选择、规模、掩码策略等因素，为未来研究提供了有用的指导
泛化能力验证：COLOSSEUM基准上的测试证明3D预训练不仅提升性能，还提高对环境变化的鲁棒性

局限性 / 可改进方向¶

固定5个正交视角，不处理遮挡和任意视角，限制了对非正交相机配置的适用性
假设准静态动力学，不处理机器人与环境的动态交互
仍需少量标注演示数据进行微调，未实现零样本迁移到新任务
仅在仿真中验证（RLBench/COLOSSEUM），缺乏真实机器人实验，sim-to-real gap未衡量
预训练仅在Objaverse子集（200K）上进行，更大规模（如Objaverse-XL的10M+）可能进一步提升
预训练15个epochs可能不够充分，更长的预训练是否能继续提升未探索

与相关工作的对比¶

MVP/R3M（2D预训练）：在COLOSSEUM上远不如3D方法。2D预训练的特征无法适配RVT等3D操作策略
RVT：3D-MVP的基线架构，从头训练62.9%，3D-MVP预训练后67.5%（+4.6%）。提升主要在中等难度任务
PerAct：用体素+Perceiver，3D-MVP在几乎所有任务上超越
GNFactor：依赖预训练VLM注入语义，3D-MVP直接从3D物体学习特征

启发与关联¶

3D预训练+下游微调的范式可推广到其他3D机器人任务（导航、抓取规划）
证明了大规模3D物体数据集（Objaverse）对机器人领域的价值——不仅限于3D生成

评分¶

新颖性: ⭐⭐⭐⭐ 将MAE从2D扩展到3D多视角的想法自然但有效，核心贡献是系统性验证而非方法创新
实验充分度: ⭐⭐⭐⭐ 两个基准+丰富消融，但缺少真实机器人实验
写作质量: ⭐⭐⭐⭐ 清晰、系统，消融研究组织得好
价值: ⭐⭐⭐⭐ 为3D机器人视觉预训练指明方向，但缺乏真实世界验证降低了即时实用价值

任务	3D-MVP	RVT基线	差异
Stack Blocks	28.8	24.8	+4.0
Place Wine	68.8	62.4	+6.4
Open Drawer	76.8	72.0	+4.8
Slide Block	81.6	74.0	+7.6
Meat off Grill	93.6	96.4	-2.8