PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation¶
会议: ECCV 2024
arXiv: 2404.13026
代码: physdreamer.github.io (有)
领域: 3D视觉
关键词: 物理仿真, 3D高斯, 视频生成先验, 材料属性估计, 交互动力学
一句话总结¶
利用视频生成模型中隐含的物理动力学先验,为静态3D高斯对象估计空间变化的杨氏模量材料场,从而实现物理合理的交互式3D动力学合成。
研究背景与动机¶
- 领域现状: 近年来3D视觉在高质量静态3D资产重建方面取得显著进展(如3D Gaussian Splatting、NeRF),部分方法甚至扩展到4D资产生成无条件动态;但现有方法无法合成响应外力等新物理交互的动作条件动力学
- 现有痛点: 合成动作条件动力学的核心挑战在于理解对象的物理材料属性(如刚度),但真实物体的材料属性测量极其困难、缺乏ground-truth数据;现实物体常具有复杂的空间变化材料属性,使估计更加困难
- 核心矛盾: 物理仿真需要已知材料参数(如杨氏模量 \(E\))才能正确模拟动力学,但这些参数无法直接从外观获取;手动设定参数无法保证物理真实性
- 本文解决什么: 如何在没有材料ground-truth的情况下,为静态3D对象估计物理材料属性,使其能够以物理合理的方式响应任意交互
- 切入角度: 人类可以轻松想象物体受力后的反应(如玫瑰在微风中摇曳),这种能力源于从大量物理世界观察中获得的先验知识;视频生成模型在大规模视频数据上训练后,隐式捕获了外观与动力学之间的关系
- 核心idea: 从预训练视频生成模型中蒸馏物理动力学先验,通过可微分物理仿真和渲染反向优化材料场,使模拟视频匹配视频模型生成的参考视频
方法详解¶
整体框架¶
PhysDreamer 的流程分为三个阶段: 1. 参考视频生成:从特定视角渲染3D高斯的静态图像,用 Stable Video Diffusion 生成运动参考视频 2. 物理参数优化:通过可微分 MPM 仿真 + 可微分渲染,优化材料场 \(E(\bm{x})\) 和初始速度场 \(\bm{v}_0(\bm{x})\),使渲染视频匹配参考视频 3. 交互式运动合成:利用估计的材料场,在任意外力下通过 MPM 仿真生成物理合理的3D动力学
关键设计¶
模块一:连续介质力学与弹性材料模型
采用 Fixed Corotated 超弹性材料模型,应变能量密度函数为:
其中 \(\sigma_i\) 为变形梯度的奇异值,Lamé 参数与杨氏模量 \(E\) 和泊松比 \(\nu\) 的关系为:
杨氏模量 \(E\) 决定材料刚度:高 \(E\) 导致小振幅、高频运动(刚性),低 \(E\) 导致大振幅、低频运动(柔软)。
模块二:可微分 MPM 仿真与参数优化
将3D高斯粒子作为 MPM 的空间离散化,通过 P2G(粒子到网格)和 G2P(网格到粒子)传递循环模拟动力学。单步仿真可表示为:
物理参数 \(\bm{\theta}\) 包括质量、杨氏模量、泊松比和体积。材料场和速度场用 triplane + 三层 MLP 参数化。
模块三:K-Means 子采样加速仿真
高保真渲染需要数百万粒子,全部仿真计算量过大。通过 K-Means 聚类创建驱动粒子集 \(\{Q_q\}_{q=1}^Q\)(\(Q \ll P\)),仅对驱动粒子运行仿真。渲染时,每个3D高斯通过对最近的8个驱动粒子拟合刚体变换来插值获取位置和旋转。
损失函数 / 训练策略¶
像素级匹配损失:
全变分正则化(鼓励空间平滑):
两阶段优化策略: - 第一阶段:随机初始化杨氏模量并冻结,仅用前三帧优化初始速度 - 第二阶段:冻结初始速度,优化空间变化的杨氏模量;梯度仅回传到上一帧以防梯度爆炸
实验关键数据¶
主实验¶
用户研究(2AFC 协议,100名参与者,800个判断样本):
| 比较对象 | 运动真实性偏好 | 视觉质量偏好 |
|---|---|---|
| Ours vs PhysGaussian | 80.8% | 65.0% |
| Ours vs DreamGaussian4D | 63.5% | 70.0% |
| Ours vs 真实拍摄 | 53.7% | 37.3% |
消融实验¶
| 设置 | 多视角监督用户偏好(视觉质量) | 多视角监督用户偏好(运动真实性) |
|---|---|---|
| 单视角参考视频 | 基准 | 基准 |
| 双视角参考视频 | 81.0% 偏好双视角 | 86.0% 偏好双视角 |
关键发现¶
- PhysGaussian 因缺乏材料属性估计机制,产生大幅度、不真实的慢速运动
- DreamGaussian4D 生成周期性恒定小幅运动,无法模拟真实的阻尼效果
- 在 Alocasia 场景中,86% 用户认为 PhysDreamer 比真实拍摄更真实——可能因为 MPM 对薄几何体产生更低频、更平滑的运动,而人类倾向于偏好平滑运动
- 多视角参考视频对自遮挡严重的物体(如 Alocasia)极为重要
亮点与洞察¶
- 巧妙的先验蒸馏思路: 利用视频生成模型作为"物理直觉"的代理,绕过了材料属性测量的难题
- 完整的可微分管线: 仿真→渲染→损失全程可微,支持端到端优化
- 物理一致性: 估计的材料场可在任意外力下复用,不局限于特定运动
- 子采样策略: 有效降低计算量,使百万级粒子场景可行
局限与展望¶
- 需手动指定前景物体、分割背景、设定边界条件
- 计算量大:即使有子采样,每秒视频需约 1 分钟(NVIDIA V100)
- 仅限弹性物体,不支持碰撞交互
- 视频生成模型的质量直接影响材料估计精度
- 可引入3D物体发现来自动化前景提取
相关工作与启发¶
- PhysGaussian: 将 MPM 仿真集成到3D高斯中,但依赖手动设定材料参数
- DreamGaussian4D: 通过蒸馏变形场从视频生成模型合成4D内容,但不支持物理交互
- Generative Image Dynamics: 用扩散模型学习图像空间的模态基,实现2D图像交互
- PAC-NeRF / DANO: 物理仿真与隐式表示结合,但缺少从生成模型蒸馏材料参数的能力
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次从视频生成模型蒸馏物理材料属性
- 实验充分度: ⭐⭐⭐⭐ — 用户研究设计严谨,但缺少定量指标对比
- 写作质量: ⭐⭐⭐⭐⭐ — 问题动机清晰,方法阐述详尽
- 实用价值: ⭐⭐⭐⭐ — 在虚拟现实和游戏领域有直接应用前景
相关论文¶
- [ECCV 2024] VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
- [NeurIPS 2025] PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation
- [ECCV 2024] SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion
- [AAAI 2026] Mask2IV: Interaction-Centric Video Generation via Mask Trajectories
- [ICCV 2025] MotionShot: Adaptive Motion Transfer across Arbitrary Objects for Text-to-Video Generation