跳转至

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation

会议: CVPR 2025
arXiv: 2406.18158
代码: https://jasonqsy.github.io/3DMVP
领域: 机器人学 / 自监督学习 / 3D视觉预训练
关键词: Masked Autoencoder, Multiview Pretraining, Robotic Manipulation, RVT, Objaverse

一句话总结

提出3D-MVP,将Masked Autoencoder预训练从2D扩展到3D多视角设定——在Objaverse的200K个3D物体上预训练RVT的多视角Transformer编码器,下游微调后在RLBench上平均成功率从62.9%提升到67.5%,在COLOSSEUM上显著提升对纹理、大小、光照等环境变化的鲁棒性。

背景与动机

视觉预训练(如MAE on Ego4D)已被证明对机器人任务有效,但现有方法只在2D图像上预训练。然而最先进的操作方法(如RVT、PerAct、Act3D)都构建显式3D表示来做决策,2D预训练的特征无法直接迁移到这些3D架构中——因为它们没有标准的2D视觉编码器。另一方面,大规模3D数据集(Objaverse 800K+物体)已可用,但缺乏机器人标注。如何利用这些大规模3D数据为3D操作策略做预训练是一个未填补的空白。

核心问题

如何将MAE预训练从2D扩展到3D,使其兼容基于多视角3D表示的机器人操作方法(如RVT),从而利用大规模3D物体数据集提升操作策略的性能和泛化能力?

方法详解

整体框架

两阶段流程: 1. 预训练:将RVT的多视角Transformer拆分为视觉编码器\(\mathcal{E}\)和动作解码器\(\mathcal{D}\)。在Objaverse 3D物体上渲染5个正交虚拟视角的RGBD图像,随机掩码75%的token,训练编码器重建原始多视角图像 2. 微调:丢弃MAE解码器,将预训练的编码器\(\mathcal{E}\)与动作解码器\(\mathcal{D}\)连接,在操作演示数据上端到端微调

关键设计

  1. 多视角MAE预训练:核心idea是让编码器通过跨视角信息融合来重建被掩码的patch——迫使模型理解3D空间关系。5个正交虚拟相机(上、左、右、前、后)产生10通道虚拟图像(RGB+Depth+世界坐标+相机坐标),token化为\(5N\)个patch后统一送入Transformer

  2. 编码器-解码器拆分:原始RVT是端到端的,输入包含语言指令并输出动作。为适配无标注的3D数据集预训练,将RVT拆分为仅处理视觉的编码器(8层Transformer)和轻量MAE解码器(2层),预训练时不需要语言或动作标注

  3. 大规模3D数据集利用:从Objaverse采样200K高质量3D模型,直接渲染为RVT所用的正交虚拟视图格式。预训练数据与下游任务完全无关,纯粹学习3D物体的视觉理解

  4. RGB-only掩码策略:仅掩码RGB通道(保留Depth和坐标通道),而非掩码所有通道。实验发现掩码所有通道使预训练任务过难,反而降低下游性能(类似MAE中掩码比例>80%的情况)

损失函数 / 训练策略

预训练:像素级L2重建损失 \(\mathcal{L}_{recon} = \frac{1}{5WH}\sum_{i=1}^{5}\sum_{p}\|I_i(p) - \tilde{I}_i(p)\|^2\) - 8×V100,15 epochs,AdamW (lr=1e-4, wd=0.01),batch 3,mask ratio 0.75

微调:标准RVT训练设定 - 8×V100,15 epochs,Lamb优化器 (lr=1e-4),batch 3,2000步warmup

实验关键数据

RLBench(18任务平均成功率)

方法 平均成功率
Image-BC (CNN) 1.3%
PerAct 49.4%
RVT(从头训练) 62.9%
3D-MVP 67.5% (+4.6%)

部分任务提升显著:Insert Peg 11.2→20.0, Put in Cupboard 49.6→60.0, Screw Bulb 48.0→60.0

更多RLBench单任务对比

任务 3D-MVP RVT基线 差异
Stack Blocks 28.8 24.8 +4.0
Place Wine 68.8 62.4 +6.4
Open Drawer 76.8 72.0 +4.8
Slide Block 81.6 74.0 +7.6
Meat off Grill 93.6 96.4 -2.8

注意3D-MVP在已高度性能饱和的简单任务(如Meat off Grill、Close Jar)上可能略有下降,提升主要集中在中等难度任务。

COLOSSEUM(泛化鲁棒性)

3D-MVP在大多数环境扰动下优于RVT和2D预训练方法(MVP、R3M)。特别是在接收物体的纹理/大小变化、操作物体大小变化、光照颜色和桌面颜色变化时提升明显。在较难的"Receptacle Color"和"Size Distraction"扰动下,3D-MVP较RVT基线分别提升了15%和12%。这说明3D预训练不仅提升性能,更重要的是增强了对视觉干扰的鲁棒性。相比之下,2D预训练方法在COLOSSEUM上甚至不如从头训练的RVT,说明2D特征无法有效迁移到3D操作架构。2D方法的失败原因可能在于:RVT的多视角Transformer将输入投影为虚拟正交视角后做3D特征融合,而2D预训练的特征缺乏跨视角一致性。

消融实验要点

  • 架构 vs 预训练:不做预训练直接微调拆分后的架构=62.9%(与RVT相同),证明提升来自预训练而非架构改变
  • Objaverse(200K) vs Objaverse(18K):67.6% vs 65.3%,数据量越大越好
  • Objaverse vs 3D-FRONT:67.6% vs 63.6%,物体级数据集优于房间级,多样性和规模是关键
  • 在RLBench上预训练:达到67.5%但在COLOSSEUM上泛化差——在自身场景预训练会过拟合
  • RGB掩码 vs 全通道掩码:67.6% vs 64.4%,仅掩码RGB效果更好

亮点

  • 首次将MAE预训练扩展到3D多视角设定用于机器人操作——填补了2D预训练与3D操作方法之间的空白
  • 即插即用设计:编码器-解码器拆分使预训练与下游分离,编码器预训练后可直接接RVT的动作解码器
  • 丰富的消融研究:系统性研究了数据集选择、规模、掩码策略等因素,为未来研究提供了有用的指导
  • 泛化能力验证:COLOSSEUM基准上的测试证明3D预训练不仅提升性能,还提高对环境变化的鲁棒性

局限性 / 可改进方向

  • 固定5个正交视角,不处理遮挡和任意视角,限制了对非正交相机配置的适用性
  • 假设准静态动力学,不处理机器人与环境的动态交互
  • 仍需少量标注演示数据进行微调,未实现零样本迁移到新任务
  • 仅在仿真中验证(RLBench/COLOSSEUM),缺乏真实机器人实验,sim-to-real gap未衡量
  • 预训练仅在Objaverse子集(200K)上进行,更大规模(如Objaverse-XL的10M+)可能进一步提升
  • 预训练15个epochs可能不够充分,更长的预训练是否能继续提升未探索

与相关工作的对比

  • MVP/R3M(2D预训练):在COLOSSEUM上远不如3D方法。2D预训练的特征无法适配RVT等3D操作策略
  • RVT:3D-MVP的基线架构,从头训练62.9%,3D-MVP预训练后67.5%(+4.6%)。提升主要在中等难度任务
  • PerAct:用体素+Perceiver,3D-MVP在几乎所有任务上超越
  • GNFactor:依赖预训练VLM注入语义,3D-MVP直接从3D物体学习特征

启发与关联

  • 3D预训练+下游微调的范式可推广到其他3D机器人任务(导航、抓取规划)
  • 证明了大规模3D物体数据集(Objaverse)对机器人领域的价值——不仅限于3D生成

评分

  • 新颖性: ⭐⭐⭐⭐ 将MAE从2D扩展到3D多视角的想法自然但有效,核心贡献是系统性验证而非方法创新
  • 实验充分度: ⭐⭐⭐⭐ 两个基准+丰富消融,但缺少真实机器人实验
  • 写作质量: ⭐⭐⭐⭐ 清晰、系统,消融研究组织得好
  • 价值: ⭐⭐⭐⭐ 为3D机器人视觉预训练指明方向,但缺乏真实世界验证降低了即时实用价值