MolmoBot: Large-Scale Simulation Enables Zero-Shot Manipulation¶
日期: 2026-03-17
arXiv: 2603.16861
代码: allenai.org/blog/molmobot-robot-manipulation
领域: 机器人
关键词: 零样本sim-to-real, 大规模仿真, VLA策略, 流匹配动作头, 移动操作
一句话总结¶
通过 MolmoBot-Engine 生成 180 万仿真操作轨迹训练 VLA 策略,实现完全零样本 sim-to-real 迁移——在桌面抓取上 79.2% 成功率(π0.5 仅 39.2%),同时支持移动操作(开门/开抽屉/移动抓取),全部开源。
研究背景与动机¶
-
领域现状: 机器人基础模型(π0、GR00T、Gemini Robotics)依赖大规模真实世界数据训练,数据收集昂贵且不可复现。社区普遍认为"纯仿真不够,必须有真实数据弥合 sim-to-real 差距"。
-
现有痛点: (a) 最强的操作策略由少数工业实验室垄断——数据混合、训练配方不公开;(b) 仿真被视为"辅助"而非"充分"——大多数方法仍需真实数据微调;(c) 移动操作(开门、抽屉)几乎没有大规模仿真数据。
-
核心矛盾: 开源社区缺乏端到端构建操作策略的完整配方——不是缺模型架构,而是缺数据引擎。
-
切入角度: 挑战"仿真不够"的假设。当仿真规模足够大、多样性足够强时,零样本迁移不仅可能而且有效——关键不在真实感渲染,而在环境/物体/任务的多样性。
-
核心 idea: MolmoBot-Engine(全开源数据生成管线)+ MolmoBot-Data(180万轨迹)+ MolmoBot(Molmo2-VLM + DiT 流匹配动作头)。
方法详解¶
整体框架¶
三层架构: 1. MolmoBot-Engine: 基于 MolmoSpaces(23.2万环境+4.8万可操作物体)的程序化数据生成管线 2. MolmoBot-Data: 180万专家轨迹,覆盖铰接物体操作(开门/抽屉/柜子)和抓放任务 3. MolmoBot 策略: 三种策略类——MolmoBot(旗舰VLA)、MolmoBot-Pi0(π0复刻)、MolmoBot-SPOC(轻量边缘部署)
关键设计¶
- 数据引擎 (MolmoBot-Engine):
- 做什么:从 MolmoSpaces 程序化生成操作轨迹
- 核心特点:
- 环境多样性: 20万+预建场景,随机化光照/纹理/物理参数
- 物体多样性: Objaverse + iTHOR 物体,按尺寸和语义过滤
- 动作随机化: 专家动作注入按比例噪声(大动作多噪声,静止无噪声)
- 相机扰动: 位置、角度随机化模拟真实传感器不确定性
-
设计动机:多样性 > 真实感——论文明确指出"操作策略从多样性中获益大于从真实感渲染中获益"
-
VLA 架构 (MolmoBot):
- 做什么:从多帧视觉+语言指令生成连续动作
- 核心思路:基于 Molmo2 视频-语言模型 + DiT 流匹配动作头。关键创新:动作头的每一层通过交叉注意力连接 VLM 对应层的隐状态——层级耦合而非仅用最终特征
- 设计动机:层级耦合让动作生成可以利用 VLM 不同层次的多模态表示(浅层细节 + 深层语义)
-
双平台验证:
- Franka FR3: 7-DoF 桌面操作(抓放任务)
- Rainbow RB-Y1: 移动操作器(全向底盘 + 双臂 + 头部)——开门/抽屉/柜子/移动抓放
- 设计动机:证明方法不限于固定臂桌面场景
域随机化策略¶
- 光照:随机灯数/位置/强度/颜色/阴影
- 纹理:程序化纹理 + 真实纹理混合
- 动力学:摩擦/质量/关节阻尼在合理范围内采样
- 初始位姿:关节位置加梯度噪声(近端小、末端大,限制 TCP 位移 ~10cm)
实验关键数据¶
桌面抓放 (Franka FR3)¶
| 方法 | 真实数据 | 成功率 |
|---|---|---|
| MolmoBot | 0(纯仿真) | 79.2% |
| MolmoBot-Pi0 | 0(纯仿真) | 46.7% |
| π0.5 | 大量真实数据 | 39.2% |
MolmoBot 零样本 79.2% > π0.5 39.2%(需要真实数据)——2× 差距。
架构控制实验¶
| 方法 | 架构 | 数据 | 成功率 |
|---|---|---|---|
| MolmoBot | Molmo2-VLA | MolmoBot-Data | 79.2% |
| MolmoBot-Pi0 | π0 架构 | MolmoBot-Data | 46.7% |
| π0.5 | π0 架构 | 真实数据 | 39.2% |
同架构(π0)下,MolmoBot-Data (仿真) > π0.5-Data (真实)——证明是数据而非架构的优势。
关键发现¶
- 数据规模和多样性是关键:消融显示减少数据量/多样性→成功率显著下降
- 不需要真实感渲染:MuJoCo 渲染 + 域随机化就够了
- 层级耦合动作头 > 仅用最终特征:每层交叉注意力对性能有正贡献
- 移动操作零样本可行:开门、抽屉等铰接操作从仿真直接迁移到真实机器人
亮点与洞察¶
- 挑战"仿真不够"的范式假设:这是机器人学习领域最大的假设之一——论文用压倒性实验证明纯仿真零样本超越真实数据训练。这对整个领域有范式级影响。
- 全开源的端到端配方:数据引擎 + 数据集 + 模型权重 + 评估代码全部开源——任何人都可以从零复现。这是 Allen AI 一贯的开放风格(Molmo、OLMo)。
- 多样性 > 真实感的核心洞察:不需要 IsaacSim 级别的光照追踪——MuJoCo 的简单渲染 + 充分的域随机化就足以建立鲁棒转移。这大幅降低了仿真数据生成的门槛。
- 层级耦合动作头:DiT 的每层与 VLM 对应层交叉注意力——让动作表示融合了多尺度语义信息而非仅用最终池化特征。
局限性 / 可改进方向¶
- 仅支持刚体和铰接物体操作:不覆盖柔性物体(布料/绳子)和极度接触密集的任务
- 桌面场景评估受限:4 个场景可能不足以覆盖所有桌面操作变体
- 移动操作未与移动基线定量对比:RB-Y1 实验主要是定性展示
- 无语言泛化评估:未测试对全新语言指令(训练时未见的表述)的泛化
相关工作与启发¶
- vs π0/π0.5: π0 需要大量真实数据 + 专有数据管线。MolmoBot 用完全开源的仿真数据超越——证明门槛在数据多样性而非数据真实性
- vs GraspVLA/InternVLA: 也做仿真数据训练,但规模和任务多样性不如 MolmoBot(180万轨迹 + 移动操作)
- vs SPOC (同团队前作): SPOC 证明了大规模仿真数据可以零样本迁移做导航,MolmoBot 扩展到操作——同一团队的系统性研究路线
- 启发:如果操作可以纯仿真,那么仿真数据引擎可能成为机器人基础模型的核心基础设施——就像 ImageNet 之于 CV
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 挑战核心范式假设并用实验证明,全开源
- 实验充分度: ⭐⭐⭐⭐⭐ 双平台+架构控制实验+消融+与π0.5直接对比
- 写作质量: ⭐⭐⭐⭐ 清晰系统,数据引擎描述详尽
- 价值: ⭐⭐⭐⭐⭐ 对机器人学习社区有范式级影响,全开源降低了所有人的入门门槛