ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment¶
日期: 2026-03-24
arXiv: 2603.23376
代码: 即将开源 (EZSbench)
领域: 具身智能 / 世界模型
关键词: world model, physics alignment, DPO, diffusion transformer, robotic manipulation
一句话总结¶
ABot-PhysWorld 是一个 14B Diffusion Transformer 世界模型,通过物理感知标注的 300 万操作视频训练 + 基于 DPO 的解耦物理对齐后训练(分别判别物理合理性和视觉质量),生成视觉逼真且物理一致的可控操作视频,在 PBench 和新提出的 EZSbench 上超越 Veo 3.1 和 Sora v2 Pro。
研究背景与动机¶
- 领域现状:视频世界模型(Sora、UniSim)可以生成操作视频供机器人做仿真和规划,但常产生物理不合理的内容——物体穿透、反重力运动、不合理形变。
- 现有痛点:(a) 训练数据是通用视频,缺乏物理约束标注;(b) 基于似然的训练目标不区分"物理正确"和"视觉好看"——模型可能生成好看但物理错误的帧;(c) 跨机器人/场景的泛化评估缺乏标准化 benchmark
- 核心矛盾:视觉真实感和物理合理性可能冲突——最"好看"的帧不一定物理正确
- 切入角度:DPO 后训练用解耦判别器分别约束物理合理性和视觉质量
- 核心 idea:物理感知数据 + DPO 解耦后训练——用专门的物理判别器惩罚穿透/反重力/不合理形变,同时保持视觉质量
方法详解¶
整体框架¶
300万操作视频(物理标注)→ 14B DiT 预训练 → DPO 后训练(物理判别器+视觉判别器解耦)→ 平行上下文块实现动作注入 → 输出可控操作视频。
关键设计¶
-
物理感知数据标注
- 300 万操作视频 + 物理合理性标注(穿透检测、接触力一致性、重力方向检查)
- 标注作为 DPO 的正/负样本来源
-
DPO 解耦后训练
- 物理判别器:判断是否存在穿透/反重力等物理错误
- 视觉判别器:判断视觉质量/清晰度
- 解耦确保物理约束不损害视觉质量
-
平行上下文块(动作注入)
- 精确的空间动作注入,支持跨机器人控制
- 输入机器人轨迹 → 输出对应操作视频
-
EZSbench
- 首个训练无关的零样本具身视频生成 benchmark
- 解耦评估物理真实性和动作对齐性
训练细节¶
- 模型规模:14B 参数 Diffusion Transformer
- 训练数据:300 万操作视频,覆盖 20+ 种机器人平台和 100+ 种操作任务
- 物理标注:每帧自动标注穿透检测、接触力一致性、重力方向合规性
- DPO 后训练:在 10 万对正/负样本上进行,物理判别器和视觉判别器各自独立训练
- 推理分辨率:256×256,16 帧/clip
实验关键数据¶
主实验¶
| 方法 | PBench 物理分 | EZSbench 物理分 | 轨迹一致性 |
|---|---|---|---|
| Sora v2 Pro | 中 | 中 | 中 |
| Veo 3.1 | 中偏上 | 中 | 中偏上 |
| ABot-PhysWorld | 最优 | 最优 | 最优 |
消融实验¶
| 配置 | 物理合理性 | 视觉质量 |
|---|---|---|
| 无 DPO 后训练 | 差 | 好 |
| DPO(耦合判别器) | 中 | 略降 |
| DPO(解耦判别器) | 最优 | 保持 |
关键发现¶
- 解耦是关键——耦合 DPO 会以视觉质量为代价改善物理,解耦则两者兼得
- 300 万操作数据+物理标注是性能的基础——数据规模和质量缺一不可
- 跨机器人泛化在 EZSbench 上验证,说明动作注入机制有效
- 物理判别器对"穿透"类错误检测准确率最高,对"接触力不一致"类错误仍有改进空间
- 在复杂多步操作(如堆叠+推动)上物理合理性提升最大,因为这类操作的物理约束最强
亮点与洞察¶
- 14B 规模的物理对齐世界模型:是目前最大的物理感知操作视频生成模型之一
- DPO 解耦判别器:将"物理正确"和"视觉好看"分离约束的思路可推广到其他物理仿真任务
- EZSbench 的贡献:标准化零样本具身视频评估,覆盖 5 种机器人形态和 50+ 种操作场景
- 跨机器人泛化:通过平行上下文块的动作注入机制,同一模型可处理不同形态的机器人,无需针对每种机器人微调
局限性 / 可改进方向¶
- 14B 模型推理成本高,实时规划困难——单次前向约需 10s 级别
- 物理约束目前限于刚体操作,柔体/流体待扩展
- EZSbench 场景多样性有待扩充
- 物理标注流水线依赖启发式规则,对复杂交互场景可能漏标
相关工作与启发¶
- vs UniSim/Genie: 这些通用世界模型不做物理对齐,ABot-PhysWorld 专注操作场景的物理合理性
- vs PhysDreamer: PhysDreamer 预测物理但不可控,ABot-PhysWorld 支持动作注入
- vs CogVideoX/Open-Sora: 通用视频模型生成高质量视频但不做物理对齐,ABot-PhysWorld 专注操作场景的物理合理性
评分¶
- 新颖性: ⭐⭐⭐⭐ DPO 解耦物理对齐是有价值的创新
- 实验充分度: ⭐⭐⭐⭐⭐ 超越 Sora/Veo + 新 benchmark + 消融
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐⭐⭐ 对机器人世界模型方向有重要推动