跳转至

LPWM: Latent Particle World Models for Object-Centric Stochastic Dynamics

会议: ICLR 2026
arXiv: 2603.04553
代码: 项目页
领域: 世界模型 / 物体中心表示 / 视频预测
关键词: 物体中心, 潜在粒子, 自监督, 世界模型, 随机动力学, 潜在动作

一句话总结

LPWM 是首个能扩展到真实世界多物体数据集的自监督物体中心世界模型,核心创新是为每个粒子学习独立的潜在动作分布(per-particle latent actions),通过因果时空 Transformer 并行编码所有帧,支持动作/语言/图像目标/多视角等多种条件生成,在视频预测上达到 SOTA 并展示了模仿学习能力(OGBench task3 成功率 89%)。

研究背景与动机

  1. 领域现状:物体中心世界模型通过将场景分解为独立物体表示(slot/patch/particle),天然适合理解多物体交互。DLP(Deep Latent Particles)框架用关键点+扩展属性表示物体(位置、尺度、深度、透明度、视觉特征)。
  2. 现有痛点
  3. Slot-based 方法(SlotFormer 等):分解不一致、预测模糊、收敛困难,且需要两阶段训练
  4. Patch-based 方法(G-SWM 等):依赖跨帧后处理匹配,无法扩展到复杂数据
  5. DDLP(当前最好的 particle-based 方法):依赖显式粒子追踪 + 顺序编码 → 无法并行化、不支持随机性
  6. 所有物体中心方法都局限于简单仿真环境,无法处理真实世界多物体视频
  7. 核心矛盾:物体中心表示有天然优势(可解释、组合泛化、稀疏交互建模),但扩展到真实世界复杂场景的关键瓶颈是——如何处理多物体独立的随机运动?全局潜在动作无法捕捉"物体 A 左移、物体 B 不动"的独立行为
  8. 核心 idea:为每个潜在粒子学习独立的潜在动作分布 \(z_c^m\)——训练时用逆动力学从帧对推断,推理时用学到的潜在策略采样,通过 AdaLN 条件化因果时空 Transformer

方法详解

整体框架

视频帧序列 → 并行粒子编码器(每帧提取 \(M\) 个前景粒子 \(z_{fg}^m = [z_p, z_s, z_d, z_t, z_f]\) + 背景粒子)→ Context Module(学习 per-particle 潜在动作 \(z_c^m\))→ 因果时空 Transformer 动力学预测 → 粒子解码器重建下一帧

关键设计

  1. 潜在粒子表示(无需追踪)
  2. 做什么:每帧编码为 \(M\) 个前景粒子,每个粒子有属性向量 \(z_{fg}^m = [z_p, z_s, z_d, z_t, z_f]\)(位置 2D、尺度、深度、透明度、视觉特征)
  3. 与 DDLP 的关键区别:保留所有 \(M\) 个编码粒子的身份(基于 patch origin),而非追踪少数粒子的运动轨迹。这允许帧间并行编码(无顺序依赖)
  4. 定位在 patch-based 和 object-centric 的折中:粒子可在其 origin 附近一定范围内移动,但不完全自由漫游
  5. 设计动机:显式追踪是 DDLP 的可扩展性瓶颈——追踪失败导致错误积累

  6. Per-Particle 潜在动作(Context Module,核心创新)

  7. 做什么:为每个粒子 \(m\) 学习独立的潜在动作分布 \(q(z_c^m | o_t, o_{t+1})\)
  8. 训练时(逆动力学):给定连续两帧,推断每个粒子的潜在动作(类似 inverse model)
  9. 推理时(潜在策略):\(\pi(z_c^m | o_{\leq t})\)——仅基于历史帧预测下一步每个粒子的潜在动作分布,采样实现随机预测
  10. 训练目标:KL 散度正则化 \(D_{KL}(q(z_c^m | o_t, o_{t+1}) \| \pi(z_c^m | o_{\leq t}))\)
  11. vs 全局潜在动作(Genie、CADDY):消融实验证明 per-particle 是关键——全局动作无法捕捉多物体的独立运动模式
  12. 设计动机:多物体场景中物体运动是独立的(球左移、方块不动),需要 per-object 的随机性建模

  13. 因果时空 Transformer 动力学

  14. 做什么:预测下一帧的粒子属性变化
  15. 核心思路:因果注意力(只看历史帧)+ 空间注意力(同一帧内粒子交互)+ AdaLN 条件化(将潜在动作 \(z_c^m\) 通过 Adaptive Layer Normalization 融入 Transformer 层)
  16. 设计动机:AdaLN 比加法位置嵌入更有效地融入条件信号(消融验证)

  17. 多模态条件化

  18. 动作条件:外部动作信号直接融入 Transformer
  19. 语言条件:文本编码后作为额外条件
  20. 图像目标条件:目标帧编码后引导生成
  21. 多视角:多视角粒子可同时建模动态
  22. 设计动机:统一的条件化接口使同一模型适用于多种下游任务

损失函数 / 训练策略

  • 端到端纯视频自监督训练(无需物体标签/分割标注)
  • 重构损失 + KL 正则化(潜在动作分布)
  • 训练分辨率 128×128,\(M\) 个粒子随数据集调整

实验关键数据

视频预测(主实验)

数据集 条件类型 DVAE LPIPS↓ LPWM LPIPS↓ DVAE FVD↓ LPWM FVD↓
Sketchy-U 潜在动作 0.113 0.070 140.06 85.45
BAIR-U 潜在动作 0.063 0.062 164.41 163.91
Bridge-L 语言 146.85 47.78
Mario-U 潜在动作 最优 最优

LPWM 在所有随机动力学数据集上的 LPIPS 和 FVD 指标均超越所有基线。

模仿学习

环境/任务 GCIVL HIQL LPWM
PandaPush 1 Cube 74±4 100±0
PandaPush 3 Cubes 62.1±4.4 89.4±2.5
OGBench task1 84±4 80±6 100±0
OGBench task3 16±8 61±11 89±9

LPWM 在 PandaPush 和 OGBench 的多任务上显著超越基线。OGBench task3(涉及 4 个原子行为)成功率 89% vs EC Diffuser 16%。

消融实验

配置 效果 说明
全局 vs per-particle 潜在动作 Per-particle 显著更优 核心创新被验证
潜在动作维度 接近有效粒子维度 (\(6+d_{obj}\)) 最佳 模型对维度鲁棒
AdaLN vs 加法位置嵌入 AdaLN 更优 条件化方式很重要

关键发现

  • Per-particle 潜在动作是性能的决定性因素——全局潜在动作导致多物体场景的独立运动无法被建模
  • LPWM 的紧凑模型在 BAIR-64 上的 FVD(89.4)匹配大规模视频生成模型——说明物体中心归纳偏差的效率优势
  • 真实世界数据集(Sketchy、BAIR、Bridge)上的成功验证打破了物体中心方法仅适用于仿真的传统认知
  • 想象轨迹与实际执行高度匹配(Figure 4),证明世界模型的准确性可直接转化为决策能力

亮点与洞察

  • 物体中心表示的"扩展突破":长期以来物体中心方法被认为只能在简单仿真中工作。LPWM 证明了通过正确的设计(per-particle latent actions + 去掉追踪 + 并行编码)可以扩展到真实世界——这是概念性的进步
  • "what-where"视觉通路的计算实现:粒子表示天然对应视觉系统的物体分解,潜在动作对应动作预测,整体架构与人类视觉-空间世界模型的神经科学发现吻合
  • 统一的多条件接口:同一个模型支持无条件/动作/语言/图像/多视角条件化——这使得从视频预训练 → 机器人控制的迁移变得自然

局限性 / 可改进方向

  • 假设小的相机运动和重复场景(如机器人桌面操作),不适用于任意视频(如街景、电影)
  • 4 个原子行为的长 horizon 任务(OGBench task4/5)全部方法失败——长期规划仍是挑战

  • 粒子数 \(M\) 固定,无法动态适应不同复杂度的场景
  • 隐式追踪(粒子在 origin 附近移动)在大位移场景可能失效
  • 尚未与显式奖励模型/RL 结合

相关工作与启发

  • vs SlotFormer(slot-based):两阶段训练、分解不一致、模糊预测;LPWM 端到端训练、per-particle latent actions 更灵活
  • vs Genie/CADDY(全局潜在动作):全局动作无法捕捉多物体独立运动;PlaySlot 加了 slot-level latent actions 但受限于 slot 表示的缺陷
  • vs DDLP(最近的 particle-based 前辈):DDLP 需要显式追踪和顺序编码;LPWM 去掉追踪、并行编码、加入随机性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Per-particle latent actions 是自然但非显然的关键创新,物体中心世界模型扩展到真实世界是重要突破
  • 实验充分度: ⭐⭐⭐⭐ 6+ 数据集(合成+真实)+ 视频预测 + 模仿学习 + 消融
  • 写作质量: ⭐⭐⭐⭐ 动机和设计逻辑清晰,与先前工作的对比充分
  • 价值: ⭐⭐⭐⭐⭐ 物体中心世界模型领域的开创性工作,代码/数据/模型全部开源