跳转至

MolmoBot: Large-Scale Simulation Enables Zero-Shot Manipulation

日期: 2026-03-17
arXiv: 2603.16861
代码: allenai.org/blog/molmobot-robot-manipulation
领域: 机器人
关键词: 零样本sim-to-real, 大规模仿真, VLA策略, 流匹配动作头, 移动操作

一句话总结

通过 MolmoBot-Engine 生成 180 万仿真操作轨迹训练 VLA 策略,实现完全零样本 sim-to-real 迁移——在桌面抓取上 79.2% 成功率(π0.5 仅 39.2%),同时支持移动操作(开门/开抽屉/移动抓取),全部开源。

研究背景与动机

  1. 领域现状: 机器人基础模型(π0、GR00T、Gemini Robotics)依赖大规模真实世界数据训练,数据收集昂贵且不可复现。社区普遍认为"纯仿真不够,必须有真实数据弥合 sim-to-real 差距"。

  2. 现有痛点: (a) 最强的操作策略由少数工业实验室垄断——数据混合、训练配方不公开;(b) 仿真被视为"辅助"而非"充分"——大多数方法仍需真实数据微调;(c) 移动操作(开门、抽屉)几乎没有大规模仿真数据。

  3. 核心矛盾: 开源社区缺乏端到端构建操作策略的完整配方——不是缺模型架构,而是缺数据引擎。

  4. 切入角度: 挑战"仿真不够"的假设。当仿真规模足够大、多样性足够强时,零样本迁移不仅可能而且有效——关键不在真实感渲染,而在环境/物体/任务的多样性

  5. 核心 idea: MolmoBot-Engine(全开源数据生成管线)+ MolmoBot-Data(180万轨迹)+ MolmoBot(Molmo2-VLM + DiT 流匹配动作头)。

方法详解

整体框架

三层架构: 1. MolmoBot-Engine: 基于 MolmoSpaces(23.2万环境+4.8万可操作物体)的程序化数据生成管线 2. MolmoBot-Data: 180万专家轨迹,覆盖铰接物体操作(开门/抽屉/柜子)和抓放任务 3. MolmoBot 策略: 三种策略类——MolmoBot(旗舰VLA)、MolmoBot-Pi0(π0复刻)、MolmoBot-SPOC(轻量边缘部署)

关键设计

  1. 数据引擎 (MolmoBot-Engine):
    • 做什么:从 MolmoSpaces 程序化生成操作轨迹
    • 核心特点:
    • 环境多样性: 20万+预建场景,随机化光照/纹理/物理参数
    • 物体多样性: Objaverse + iTHOR 物体,按尺寸和语义过滤
    • 动作随机化: 专家动作注入按比例噪声(大动作多噪声,静止无噪声)
    • 相机扰动: 位置、角度随机化模拟真实传感器不确定性
  2. 设计动机:多样性 > 真实感——论文明确指出"操作策略从多样性中获益大于从真实感渲染中获益"

  3. VLA 架构 (MolmoBot):

    • 做什么:从多帧视觉+语言指令生成连续动作
    • 核心思路:基于 Molmo2 视频-语言模型 + DiT 流匹配动作头。关键创新:动作头的每一层通过交叉注意力连接 VLM 对应层的隐状态——层级耦合而非仅用最终特征
    • 设计动机:层级耦合让动作生成可以利用 VLM 不同层次的多模态表示(浅层细节 + 深层语义)
  4. 双平台验证:

    • Franka FR3: 7-DoF 桌面操作(抓放任务)
    • Rainbow RB-Y1: 移动操作器(全向底盘 + 双臂 + 头部)——开门/抽屉/柜子/移动抓放
    • 设计动机:证明方法不限于固定臂桌面场景

域随机化策略

  • 光照:随机灯数/位置/强度/颜色/阴影
  • 纹理:程序化纹理 + 真实纹理混合
  • 动力学:摩擦/质量/关节阻尼在合理范围内采样
  • 初始位姿:关节位置加梯度噪声(近端小、末端大,限制 TCP 位移 ~10cm)

实验关键数据

桌面抓放 (Franka FR3)

方法 真实数据 成功率
MolmoBot 0(纯仿真) 79.2%
MolmoBot-Pi0 0(纯仿真) 46.7%
π0.5 大量真实数据 39.2%

MolmoBot 零样本 79.2% > π0.5 39.2%(需要真实数据)——2× 差距。

架构控制实验

方法 架构 数据 成功率
MolmoBot Molmo2-VLA MolmoBot-Data 79.2%
MolmoBot-Pi0 π0 架构 MolmoBot-Data 46.7%
π0.5 π0 架构 真实数据 39.2%

同架构(π0)下,MolmoBot-Data (仿真) > π0.5-Data (真实)——证明是数据而非架构的优势。

关键发现

  • 数据规模和多样性是关键:消融显示减少数据量/多样性→成功率显著下降
  • 不需要真实感渲染:MuJoCo 渲染 + 域随机化就够了
  • 层级耦合动作头 > 仅用最终特征:每层交叉注意力对性能有正贡献
  • 移动操作零样本可行:开门、抽屉等铰接操作从仿真直接迁移到真实机器人

亮点与洞察

  • 挑战"仿真不够"的范式假设:这是机器人学习领域最大的假设之一——论文用压倒性实验证明纯仿真零样本超越真实数据训练。这对整个领域有范式级影响。
  • 全开源的端到端配方:数据引擎 + 数据集 + 模型权重 + 评估代码全部开源——任何人都可以从零复现。这是 Allen AI 一贯的开放风格(Molmo、OLMo)。
  • 多样性 > 真实感的核心洞察:不需要 IsaacSim 级别的光照追踪——MuJoCo 的简单渲染 + 充分的域随机化就足以建立鲁棒转移。这大幅降低了仿真数据生成的门槛。
  • 层级耦合动作头:DiT 的每层与 VLM 对应层交叉注意力——让动作表示融合了多尺度语义信息而非仅用最终池化特征。

局限性 / 可改进方向

  • 仅支持刚体和铰接物体操作:不覆盖柔性物体(布料/绳子)和极度接触密集的任务
  • 桌面场景评估受限:4 个场景可能不足以覆盖所有桌面操作变体
  • 移动操作未与移动基线定量对比:RB-Y1 实验主要是定性展示
  • 无语言泛化评估:未测试对全新语言指令(训练时未见的表述)的泛化

相关工作与启发

  • vs π0/π0.5: π0 需要大量真实数据 + 专有数据管线。MolmoBot 用完全开源的仿真数据超越——证明门槛在数据多样性而非数据真实性
  • vs GraspVLA/InternVLA: 也做仿真数据训练,但规模和任务多样性不如 MolmoBot(180万轨迹 + 移动操作)
  • vs SPOC (同团队前作): SPOC 证明了大规模仿真数据可以零样本迁移做导航,MolmoBot 扩展到操作——同一团队的系统性研究路线
  • 启发:如果操作可以纯仿真,那么仿真数据引擎可能成为机器人基础模型的核心基础设施——就像 ImageNet 之于 CV

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 挑战核心范式假设并用实验证明,全开源
  • 实验充分度: ⭐⭐⭐⭐⭐ 双平台+架构控制实验+消融+与π0.5直接对比
  • 写作质量: ⭐⭐⭐⭐ 清晰系统,数据引擎描述详尽
  • 价值: ⭐⭐⭐⭐⭐ 对机器人学习社区有范式级影响,全开源降低了所有人的入门门槛