跳转至

PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

基本信息

  • arXiv: 2509.20358
  • 会议: NeurIPS 2025
  • 作者: Chen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu
  • 机构: University of Pennsylvania, Apple
  • 项目: https://cwchenwang.github.io/physctrl

一句话总结

提出 PhysCtrl,通过生成式物理网络学习 4 种材质(弹性体、沙子、橡皮泥、刚体)的物理动力学分布,以 3D 点轨迹表示物理运动,结合 I2V 模型实现物理参数和力可控的视频生成。

背景与动机

现有 T2V/I2V 模型在视觉质量上已经很好,但生成的运动缺乏物理合理性3D 可控性。例如: - 物体碰撞后运动不符合物理定律 - 无法控制物体的材质属性(弹性、重力等) - 无法指定施加的力的方向和大小

要让视频生成模型成为真正的"世界模拟器",需要将物理模拟引入生成过程。但直接在像素空间做物理模拟开销巨大且不够灵活。

核心问题

如何让视频生成模型生成物理合理的运动,同时支持物理参数(材质、弹性、摩擦力等)和外力的精确控制?

方法详解

1. 整体框架

PhysCtrl 分两阶段: 1. Generative Physics Network:以扩散模型学习物理动力学分布,输入物理参数 + 外力,输出 3D 点轨迹 2. I2V Generation:用生成的 3D 点轨迹驱动 I2V 模型(如 SV3D, DragAnything 等)生成最终视频

2. 物理动力学表示:3D 点轨迹

  • 将物理运动表示为 3D 空间中的点轨迹集合
  • 支持 4 种材质:弹性体 (elastic)、沙子 (sand)、橡皮泥 (plasticine)、刚体 (rigid)
  • 每种材质有不同的物理参数(如弹性模量、泊松比、摩擦系数等)

3. 大规模合成数据集

  • 使用物理模拟器生成 550K 动画
  • 涵盖 4 种材质 × 多种物理参数 × 多种力的组合
  • 每个动画提取 3D 点轨迹作为训练数据

4. 时空注意力 + 物理约束

  • Spatiotemporal Attention Block:模拟粒子之间的交互作用(空间 attention 模拟粒子间力,时间 attention 模拟动力学演化)
  • 物理约束训练:在训练损失中加入物理先验约束(如动量守恒、能量守恒等),强制学习物理合理的轨迹分布
  • 物理参数和外力通过条件注入(conditioning)控制扩散模型

5. 从 3D 轨迹到视频

生成的 3D 点轨迹可投影为 2D 运动场/光流,驱动现有 I2V 模型进行渲染。这解耦了物理模拟和视觉渲染。

实验关键数据

  • 支持 4 种材质的物理合理运动生成
  • 在视觉质量和物理合理性两个维度上超越现有方法
  • 可通过调节物理参数(如重力、弹性系数)精确控制运动特性
  • 可通过指定外力(方向、大小)控制物体运动

亮点

  1. 物理参数+力的双重控制:首次在视频生成中实现物理参数和外力的精确可控
  2. 生成式物理学:不是直接做物理模拟,而是学习物理动力学的分布——保持了生成模型的灵活性
  3. 3D 点轨迹中间表示:优雅解耦物理模拟和视觉渲染
  4. 大规模合成数据训练:550K 动画覆盖多种材质和参数组合
  5. 时空注意力模拟粒子交互:将物理直觉嵌入网络架构

局限性

  1. 目前仅支持 4 种基础材质,不包含液体、气体等
  2. 依赖物理模拟器生成训练数据,真实世界泛化性有待验证
  3. 从 3D 轨迹到视频的渲染仍依赖外部 I2V 模型
  4. 计算开销:需要先运行物理扩散模型再运行 I2V 模型

与相关工作的对比

  • vs. PhysDreamer/PhysGen:这些方法在视频生成中做隐式物理建模,PhysCtrl 是显式学习物理动力学分布
  • vs. DragAnything/MotionCtrl:这些方法提供运动轨迹控制但不考虑物理合理性
  • vs. Aether:Aether 学习世界模型做物理预测,PhysCtrl 更聚焦于可控物理运动生成
  • vs. 传统物理模拟 (MPM, FEM):传统方法精确但无法生成多样化结果,PhysCtrl 作为生成模型可采样多样轨迹

启发与关联

  • 世界模拟器方向:PhysCtrl 是"物理引擎 meets 生成模型"的有趣尝试,为 Sora 式世界模拟器提供了物理约束的解决思路
  • 与 InfinityStar 的互补:InfinityStar 关注高效离散 AR 视频生成,PhysCtrl 关注物理可控性——未来可结合实现高效且物理合理的视频生成
  • 3D 表示的价值:3D 点轨迹作为中间表示,连接了物理模拟和视频生成,类似 NeRF/3D Gaussian 作为桥梁

评分

  • 新颖性:★★★★★ — 生成式物理网络学习物理动力学分布是全新思路
  • 技术深度:★★★★☆ — 物理约束 + 时空注意力设计巧妙
  • 实验完整度:★★★★☆ — 4 种材质覆盖全面,但真实世界验证有限
  • 写作质量:★★★★☆ — 问题定义清晰,框架设计优雅