跳转至

SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models

会议: CVPR 2026
arXiv: 2512.05955
代码: 无(coming soon)
领域: 多模态VLM / 机器人操作
关键词: 仿真推理, 视觉语言模型, 动作规划, 物理推理, 机器人操作

一句话总结

SIMPACT 提出一种测试时的仿真增强动作规划框架,从单张 RGB-D 图像自动构建物理仿真环境,使 VLM 能够提出动作、观察仿真结果并迭代优化推理,无需额外训练即可在刚体和可变形物体操作任务上达到 SOTA 性能。

研究背景与动机

领域现状:视觉-语言模型(VLMs)如 GPT-4V、Gemini 等展现了卓越的常识推理和语义理解能力,被广泛探索用于机器人任务规划。然而,VLMs 的训练数据来源于互联网上的静态图像-文本对,不包含因果交互或动作条件下的变化。

现有痛点:(1) VLMs 缺乏对物理动力学的深度理解——它们不知道"推一个物体会发生什么"、"不同力度的推动效果有何区别";(2) 现有基于 VLM 的机器人方法通常直接让模型输出动作参数,但模型缺乏物理验证能力;(3) 不训练新模型的情况下,如何让 VLM "理解"物理世界仍是开放问题。

核心矛盾:VLMs 拥有强大的语义推理能力,但缺乏物理动力学理解。这根本上是因为互联网数据中不存在"动作→结果"的因果链信息。

本文目标:在测试时为 VLM 补充物理推理能力,无需额外训练,让 VLM 能够进行需要精细物理理解的机器人操作任务规划。

切入角度:作者观察到物理仿真器(如 PyBullet、MuJoCo 等)可以提供精确的物理预测,如果能在测试时将仿真器作为"世界模型"嵌入 VLM 的推理循环中,就能弥补 VLM 的物理理解不足。

核心 idea:在 VLM 推理过程中嵌入物理仿真循环——VLM 提出动作 → 仿真器执行 → VLM 观察仿真结果 → VLM 迭代修正,实现"仿真即世界模型"的物理增强推理。

方法详解

整体框架

SIMPACT 的整体流程分为三个阶段:(1) 仿真构建:从单张 RGB-D 图像自动构建物理仿真环境;(2) 动作采样与优化:VLM 基于语言任务描述提出候选动作,在仿真中执行并观察结果,迭代优化动作参数;(3) 真实执行:将仿真中优化好的动作序列在真实机器人上执行。整个过程不需要额外训练 VLM。

关键设计

  1. 自动仿真构建 (Automatic Simulation Construction):

    • 功能:从单张 RGB-D 图像自动创建可交互的物理仿真环境
    • 核心思路:给定一张 RGB-D 图像和语言任务描述,pipeline 自动执行以下步骤——(a) 利用深度信息和分割模型识别场景中的物体;(b) 对刚体物体生成网格模型并放入仿真器(如 PyBullet);(c) 对可变形物体(如绳子、橡皮泥)使用粒子基仿真(如 DiffSim);(d) 提示 VLM 推断各物体的物理参数(质量、摩擦系数等)。最终得到一个与真实场景对应的可交互仿真环境
    • 设计动机:物理仿真需要3D模型和物理参数,直接让 VLM 估计这些信息虽有不精确性,但足以支撑合理的物理预测。从单张图像构建仿真大幅降低了对3D扫描等昂贵设备的依赖
  2. VLM 驱动的动作采样与优化 (VLM-based Action Sampling & Optimization):

    • 功能:利用 VLM 提出、评估和优化机器人动作
    • 核心思路:VLM 首先基于任务描述和场景理解提出一组候选动作(包括推动方向、力度、接触点等参数)。每个候选动作在仿真中执行,生成 rollout 视频或关键帧图像。VLM 观察这些仿真结果,判断哪些动作更接近目标,并据此提出改进后的新候选动作。这个"提出→仿真→评估→改进"的循环迭代进行,直到找到满意的动作方案
    • 设计动机:VLM 的常识推理能力使其能够提出合理的初始动作猜测,仿真提供精确的物理验证。两者的结合让动作规划既有语义指导又有物理保障
  3. 刚体-可变形双模态仿真 (Rigid-Deformable Dual-Mode Simulation):

    • 功能:支持刚体和可变形物体的物理仿真
    • 核心思路:根据物体类型自动选择仿真方式——刚体物体使用基于网格的仿真(Mesh-based Simulation),通过碰撞检测和刚体动力学模拟推拉碰撞等交互;可变形物体(绳子、面团等)使用基于粒子的仿真(Particle-based Simulation),模拟拉伸、变形、切割等行为。VLM 负责判断物体类型并推断相应的物理参数
    • 设计动机:真实世界的机器人任务常涉及刚体和可变形物体的混合操作,单一仿真模式无法覆盖所有场景

损失函数 / 训练策略

SIMPACT 是一个纯推理时框架,不涉及模型训练或微调:

  • 无损失函数:VLM 权重冻结,通过 in-context learning 在测试时进行推理
  • 动作优化准则:VLM 基于仿真 rollout 的视觉结果判断动作质量(是否接近目标状态),这是一种隐式的优化——VLM 的语义判断力作为"评价函数"
  • 迭代策略:通常进行 3-5 轮迭代,每轮提出 N 个候选动作并仿真,从中选出最佳并在其邻域继续采样

实验关键数据

主实验

任务 SIMPACT RT-2 Code-as-Policies VoxPoser 说明
刚体推动到目标位置 最佳 较差 中等 中等 精细力度控制
物体排序/整理 最佳 一般 较好 一般 多物体规划
绳子操作 最佳 无法完成 无法完成 较差 可变形物体
橡皮泥塑形 最佳 无法完成 无法完成 无法完成 高难度变形
多物体碰撞预测 最佳 较差 较差 一般 接触动力学

消融实验

配置 平均成功率 说明
Full SIMPACT 最佳 仿真优化 + 迭代精炼
w/o Simulation (直接VLM) 显著下降 VLM直接输出动作缺乏物理验证
w/o Iterative Refinement 明显下降 一次采样无精细调优
Random Physics Params 轻微下降 物理参数的精确性有一定影响
仿真仅1轮 低于多轮 迭代改善效果显著

关键发现

  • 仿真环带来的物理预测是性能提升的最大贡献因素——移除仿真后,VLM 在需要精细力度控制的任务上基本失败
  • 可变形物体操作(绳子、橡皮泥)是传统方法的盲区,SIMPACT 通过粒子仿真首次展示了 VLM 在这类任务上的可行性
  • 即使仿真的物理参数不完全精确(VLM 估计的),仿真反馈仍然比无仿真好得多——说明"粗略但正确方向的物理预测"远好于"无物理预测"
  • 系统对物体外观变化(不同颜色、形状)和干扰物具有较好的鲁棒性

亮点与洞察

  • "仿真即世界模型" 的优雅思路:不修改 VLM,不训练新模型,而是在测试时给 VLM 配备一个物理仿真器作为"大脑中的物理引擎"。这种思路可以推广到任何需要物理理解的推理任务
  • 从单张 RGB-D 图像自动建仿真:极大降低了仿真构建的门槛,使该方法在新场景中快速部署成为可能。虽然仿真精度有限,但"有仿真"远好于"无仿真"
  • 刚体+可变形统一框架:同时处理刚体和可变形操作的能力在 VLM-based 机器人方法中首次实现

局限与展望

  • 仿真构建依赖深度信息和分割模型,在室外或深度噪声大的场景中可能不可靠
  • VLM 估计物理参数(质量、摩擦等)的精度有限,对物理参数敏感的任务可能表现不佳
  • 仿真-现实的 gap(sim-to-real gap)仍然存在,特别是对可变形物体的仿真精度
  • 每次推理需要构建仿真环境并运行多轮 rollout,推理延迟较高
  • 目前限于桌面级操作,对更复杂的长程任务(如烹饪、装配)的扩展需要进一步研究

相关工作与启发

  • vs Code-as-Policies: CaP 让 LLM 直接输出机器人控制代码,缺乏物理验证。SIMPACT 通过仿真为 VLM 提供了物理"沙盒"来预测动作后果
  • vs VoxPoser: VoxPoser 使用 VLM 生成价值函数来引导规划,但不进行显式的物理仿真。SIMPACT 的仿真提供了更准确的物理预测
  • vs RT-2/Octo 等end-to-end方法: 这些方法需要大量机器人数据训练,SIMPACT 纯依靠预训练 VLM + 仿真,无需额外训练数据

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 仿真增强VLM推理的思路非常新颖且优雅,开辟了新方向
  • 实验充分度: ⭐⭐⭐⭐ 5个真实世界任务验证,包含刚体和可变形,鲁棒性实验充分
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,可视化丰富
  • 价值: ⭐⭐⭐⭐⭐ 对VLM机器人领域有重要启发,无需训练是实用优势

相关论文