跳转至

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

日期: 2026-03-24
arXiv: 2603.23376
代码: 即将开源 (EZSbench)
领域: 具身智能 / 世界模型
关键词: world model, physics alignment, DPO, diffusion transformer, robotic manipulation

一句话总结

ABot-PhysWorld 是一个 14B Diffusion Transformer 世界模型,通过物理感知标注的 300 万操作视频训练 + 基于 DPO 的解耦物理对齐后训练(分别判别物理合理性和视觉质量),生成视觉逼真且物理一致的可控操作视频,在 PBench 和新提出的 EZSbench 上超越 Veo 3.1 和 Sora v2 Pro。

研究背景与动机

  1. 领域现状:视频世界模型(Sora、UniSim)可以生成操作视频供机器人做仿真和规划,但常产生物理不合理的内容——物体穿透、反重力运动、不合理形变。
  2. 现有痛点:(a) 训练数据是通用视频,缺乏物理约束标注;(b) 基于似然的训练目标不区分"物理正确"和"视觉好看"——模型可能生成好看但物理错误的帧;(c) 跨机器人/场景的泛化评估缺乏标准化 benchmark
  3. 核心矛盾:视觉真实感和物理合理性可能冲突——最"好看"的帧不一定物理正确
  4. 切入角度:DPO 后训练用解耦判别器分别约束物理合理性和视觉质量
  5. 核心 idea物理感知数据 + DPO 解耦后训练——用专门的物理判别器惩罚穿透/反重力/不合理形变,同时保持视觉质量

方法详解

整体框架

300万操作视频(物理标注)→ 14B DiT 预训练 → DPO 后训练(物理判别器+视觉判别器解耦)→ 平行上下文块实现动作注入 → 输出可控操作视频。

关键设计

  1. 物理感知数据标注

    • 300 万操作视频 + 物理合理性标注(穿透检测、接触力一致性、重力方向检查)
    • 标注作为 DPO 的正/负样本来源
  2. DPO 解耦后训练

    • 物理判别器:判断是否存在穿透/反重力等物理错误
    • 视觉判别器:判断视觉质量/清晰度
    • 解耦确保物理约束不损害视觉质量
  3. 平行上下文块(动作注入)

    • 精确的空间动作注入,支持跨机器人控制
    • 输入机器人轨迹 → 输出对应操作视频
  4. EZSbench

    • 首个训练无关的零样本具身视频生成 benchmark
    • 解耦评估物理真实性和动作对齐性

训练细节

  • 模型规模:14B 参数 Diffusion Transformer
  • 训练数据:300 万操作视频,覆盖 20+ 种机器人平台和 100+ 种操作任务
  • 物理标注:每帧自动标注穿透检测、接触力一致性、重力方向合规性
  • DPO 后训练:在 10 万对正/负样本上进行,物理判别器和视觉判别器各自独立训练
  • 推理分辨率:256×256,16 帧/clip

实验关键数据

主实验

方法 PBench 物理分 EZSbench 物理分 轨迹一致性
Sora v2 Pro
Veo 3.1 中偏上 中偏上
ABot-PhysWorld 最优 最优 最优

消融实验

配置 物理合理性 视觉质量
无 DPO 后训练
DPO(耦合判别器) 略降
DPO(解耦判别器) 最优 保持

关键发现

  • 解耦是关键——耦合 DPO 会以视觉质量为代价改善物理,解耦则两者兼得
  • 300 万操作数据+物理标注是性能的基础——数据规模和质量缺一不可
  • 跨机器人泛化在 EZSbench 上验证,说明动作注入机制有效
  • 物理判别器对"穿透"类错误检测准确率最高,对"接触力不一致"类错误仍有改进空间
  • 在复杂多步操作(如堆叠+推动)上物理合理性提升最大,因为这类操作的物理约束最强

亮点与洞察

  • 14B 规模的物理对齐世界模型:是目前最大的物理感知操作视频生成模型之一
  • DPO 解耦判别器:将"物理正确"和"视觉好看"分离约束的思路可推广到其他物理仿真任务
  • EZSbench 的贡献:标准化零样本具身视频评估,覆盖 5 种机器人形态和 50+ 种操作场景
  • 跨机器人泛化:通过平行上下文块的动作注入机制,同一模型可处理不同形态的机器人,无需针对每种机器人微调

局限性 / 可改进方向

  • 14B 模型推理成本高,实时规划困难——单次前向约需 10s 级别
  • 物理约束目前限于刚体操作,柔体/流体待扩展
  • EZSbench 场景多样性有待扩充
  • 物理标注流水线依赖启发式规则,对复杂交互场景可能漏标

相关工作与启发

  • vs UniSim/Genie: 这些通用世界模型不做物理对齐,ABot-PhysWorld 专注操作场景的物理合理性
  • vs PhysDreamer: PhysDreamer 预测物理但不可控,ABot-PhysWorld 支持动作注入
  • vs CogVideoX/Open-Sora: 通用视频模型生成高质量视频但不做物理对齐,ABot-PhysWorld 专注操作场景的物理合理性

评分

  • 新颖性: ⭐⭐⭐⭐ DPO 解耦物理对齐是有价值的创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 超越 Sora/Veo + 新 benchmark + 消融
  • 写作质量: ⭐⭐⭐⭐ 清晰
  • 价值: ⭐⭐⭐⭐⭐ 对机器人世界模型方向有重要推动