ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment¶

日期: 2026-03-24
arXiv: 2603.23376
代码: 即将开源 (EZSbench)
领域: 具身智能 / 世界模型
关键词: world model, physics alignment, DPO, diffusion transformer, robotic manipulation

一句话总结¶

ABot-PhysWorld 是一个 14B Diffusion Transformer 世界模型，通过物理感知标注的 300 万操作视频训练 + 基于 DPO 的解耦物理对齐后训练（分别判别物理合理性和视觉质量），生成视觉逼真且物理一致的可控操作视频，在 PBench 和新提出的 EZSbench 上超越 Veo 3.1 和 Sora v2 Pro。

研究背景与动机¶

领域现状：视频世界模型（Sora、UniSim）可以生成操作视频供机器人做仿真和规划，但常产生物理不合理的内容——物体穿透、反重力运动、不合理形变。
现有痛点：(a) 训练数据是通用视频，缺乏物理约束标注；(b) 基于似然的训练目标不区分"物理正确"和"视觉好看"——模型可能生成好看但物理错误的帧；(c) 跨机器人/场景的泛化评估缺乏标准化 benchmark
核心矛盾：视觉真实感和物理合理性可能冲突——最"好看"的帧不一定物理正确
切入角度：DPO 后训练用解耦判别器分别约束物理合理性和视觉质量
核心 idea：物理感知数据 + DPO 解耦后训练——用专门的物理判别器惩罚穿透/反重力/不合理形变，同时保持视觉质量

方法详解¶

整体框架¶

300万操作视频（物理标注）→ 14B DiT 预训练 → DPO 后训练（物理判别器+视觉判别器解耦）→ 平行上下文块实现动作注入 → 输出可控操作视频。

关键设计¶

物理感知数据标注
- 300 万操作视频 + 物理合理性标注（穿透检测、接触力一致性、重力方向检查）
- 标注作为 DPO 的正/负样本来源
DPO 解耦后训练
- 物理判别器：判断是否存在穿透/反重力等物理错误
- 视觉判别器：判断视觉质量/清晰度
- 解耦确保物理约束不损害视觉质量
平行上下文块（动作注入）
- 精确的空间动作注入，支持跨机器人控制
- 输入机器人轨迹 → 输出对应操作视频
EZSbench
- 首个训练无关的零样本具身视频生成 benchmark
- 解耦评估物理真实性和动作对齐性

训练细节¶

模型规模：14B 参数 Diffusion Transformer
训练数据：300 万操作视频，覆盖 20+ 种机器人平台和 100+ 种操作任务
物理标注：每帧自动标注穿透检测、接触力一致性、重力方向合规性
DPO 后训练：在 10 万对正/负样本上进行，物理判别器和视觉判别器各自独立训练
推理分辨率：256×256，16 帧/clip

实验关键数据¶

主实验¶

方法	PBench 物理分	EZSbench 物理分	轨迹一致性
Sora v2 Pro	中	中	中
Veo 3.1	中偏上	中	中偏上
ABot-PhysWorld	最优	最优	最优

消融实验¶

配置	物理合理性	视觉质量
无 DPO 后训练	差	好
DPO（耦合判别器）	中	略降
DPO（解耦判别器）	最优	保持

关键发现¶

解耦是关键——耦合 DPO 会以视觉质量为代价改善物理，解耦则两者兼得
300 万操作数据+物理标注是性能的基础——数据规模和质量缺一不可
跨机器人泛化在 EZSbench 上验证，说明动作注入机制有效
物理判别器对"穿透"类错误检测准确率最高，对"接触力不一致"类错误仍有改进空间
在复杂多步操作（如堆叠+推动）上物理合理性提升最大，因为这类操作的物理约束最强

亮点与洞察¶

14B 规模的物理对齐世界模型：是目前最大的物理感知操作视频生成模型之一
DPO 解耦判别器：将"物理正确"和"视觉好看"分离约束的思路可推广到其他物理仿真任务
EZSbench 的贡献：标准化零样本具身视频评估，覆盖 5 种机器人形态和 50+ 种操作场景
跨机器人泛化：通过平行上下文块的动作注入机制，同一模型可处理不同形态的机器人，无需针对每种机器人微调

局限性 / 可改进方向¶

14B 模型推理成本高，实时规划困难——单次前向约需 10s 级别
物理约束目前限于刚体操作，柔体/流体待扩展
EZSbench 场景多样性有待扩充
物理标注流水线依赖启发式规则，对复杂交互场景可能漏标

评分¶

新颖性: ⭐⭐⭐⭐ DPO 解耦物理对齐是有价值的创新
实验充分度: ⭐⭐⭐⭐⭐ 超越 Sora/Veo + 新 benchmark + 消融
写作质量: ⭐⭐⭐⭐ 清晰
价值: ⭐⭐⭐⭐⭐ 对机器人世界模型方向有重要推动