PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation¶

会议: ECCV 2024
arXiv: 2404.13026
代码: physdreamer.github.io (有)
领域: 3D视觉
关键词: 物理仿真, 3D高斯, 视频生成先验, 材料属性估计, 交互动力学

一句话总结¶

利用视频生成模型中隐含的物理动力学先验，为静态3D高斯对象估计空间变化的杨氏模量材料场，从而实现物理合理的交互式3D动力学合成。

研究背景与动机¶

领域现状: 近年来3D视觉在高质量静态3D资产重建方面取得显著进展（如3D Gaussian Splatting、NeRF），部分方法甚至扩展到4D资产生成无条件动态；但现有方法无法合成响应外力等新物理交互的动作条件动力学
现有痛点: 合成动作条件动力学的核心挑战在于理解对象的物理材料属性（如刚度），但真实物体的材料属性测量极其困难、缺乏ground-truth数据；现实物体常具有复杂的空间变化材料属性，使估计更加困难
核心矛盾: 物理仿真需要已知材料参数（如杨氏模量 \(E\)）才能正确模拟动力学，但这些参数无法直接从外观获取；手动设定参数无法保证物理真实性
本文解决什么: 如何在没有材料ground-truth的情况下，为静态3D对象估计物理材料属性，使其能够以物理合理的方式响应任意交互
切入角度: 人类可以轻松想象物体受力后的反应（如玫瑰在微风中摇曳），这种能力源于从大量物理世界观察中获得的先验知识；视频生成模型在大规模视频数据上训练后，隐式捕获了外观与动力学之间的关系
核心idea: 从预训练视频生成模型中蒸馏物理动力学先验，通过可微分物理仿真和渲染反向优化材料场，使模拟视频匹配视频模型生成的参考视频

方法详解¶

整体框架¶

PhysDreamer 的流程分为三个阶段： 1. 参考视频生成：从特定视角渲染3D高斯的静态图像，用 Stable Video Diffusion 生成运动参考视频 2. 物理参数优化：通过可微分 MPM 仿真 + 可微分渲染，优化材料场 \(E(\bm{x})\) 和初始速度场 \(\bm{v}_0(\bm{x})\)，使渲染视频匹配参考视频 3. 交互式运动合成：利用估计的材料场，在任意外力下通过 MPM 仿真生成物理合理的3D动力学

关键设计¶

模块一：连续介质力学与弹性材料模型

采用 Fixed Corotated 超弹性材料模型，应变能量密度函数为：

\[\psi(\mathbf{F}) = \mu \left(\sum_{i=1}^{d}(\sigma_i - 1)^2\right) + \frac{\lambda}{2}(\det(\bm{F}) - 1)^2\]

其中 \(\sigma_i\) 为变形梯度的奇异值，Lamé 参数与杨氏模量 \(E\) 和泊松比 \(\nu\) 的关系为：

\[\mu = \frac{E}{2(1+\nu)}, \quad \lambda = \frac{E\nu}{(1+\nu)(1-2\nu)}\]

杨氏模量 \(E\) 决定材料刚度：高 \(E\) 导致小振幅、高频运动（刚性），低 \(E\) 导致大振幅、低频运动（柔软）。

模块二：可微分 MPM 仿真与参数优化

将3D高斯粒子作为 MPM 的空间离散化，通过 P2G（粒子到网格）和 G2P（网格到粒子）传递循环模拟动力学。单步仿真可表示为：

\[\bm{x}^{t+1}, \bm{v}^{t+1}, \bm{F}^{t+1}, \bm{C}^{t+1} = \mathcal{S}(\bm{x}^t, \bm{v}^t, \bm{F}^t, \bm{C}^t, \bm{\theta}, \Delta t)\]

物理参数 \(\bm{\theta}\) 包括质量、杨氏模量、泊松比和体积。材料场和速度场用 triplane + 三层 MLP 参数化。

模块三：K-Means 子采样加速仿真

高保真渲染需要数百万粒子，全部仿真计算量过大。通过 K-Means 聚类创建驱动粒子集 \(\{Q_q\}_{q=1}^Q\)（\(Q \ll P\)），仅对驱动粒子运行仿真。渲染时，每个3D高斯通过对最近的8个驱动粒子拟合刚体变换来插值获取位置和旋转。

损失函数 / 训练策略¶

像素级匹配损失：

\[L^t = \lambda L_1(\hat{I}^t, I^t) + (1-\lambda) L_{\text{D-SSIM}}(\hat{I}^t, I^t), \quad \lambda = 0.1\]

全变分正则化（鼓励空间平滑）：

\[L_{\text{tv}} = \sum_{i,j} \|\bm{u}_{i+1,j} - \bm{u}_{i,j}\|_2^2 + \|\bm{u}_{i,j+1} - \bm{u}_{i,j}\|_2^2\]

两阶段优化策略： - 第一阶段：随机初始化杨氏模量并冻结，仅用前三帧优化初始速度 - 第二阶段：冻结初始速度，优化空间变化的杨氏模量；梯度仅回传到上一帧以防梯度爆炸

实验关键数据¶

主实验¶

用户研究（2AFC 协议，100名参与者，800个判断样本）：

比较对象	运动真实性偏好	视觉质量偏好
Ours vs PhysGaussian	80.8%	65.0%
Ours vs DreamGaussian4D	63.5%	70.0%
Ours vs 真实拍摄	53.7%	37.3%

消融实验¶

设置	多视角监督用户偏好（视觉质量）	多视角监督用户偏好（运动真实性）
单视角参考视频	基准	基准
双视角参考视频	81.0% 偏好双视角	86.0% 偏好双视角

关键发现¶

PhysGaussian 因缺乏材料属性估计机制，产生大幅度、不真实的慢速运动
DreamGaussian4D 生成周期性恒定小幅运动，无法模拟真实的阻尼效果
在 Alocasia 场景中，86% 用户认为 PhysDreamer 比真实拍摄更真实——可能因为 MPM 对薄几何体产生更低频、更平滑的运动，而人类倾向于偏好平滑运动
多视角参考视频对自遮挡严重的物体（如 Alocasia）极为重要

亮点与洞察¶

巧妙的先验蒸馏思路: 利用视频生成模型作为"物理直觉"的代理，绕过了材料属性测量的难题
完整的可微分管线: 仿真→渲染→损失全程可微，支持端到端优化
物理一致性: 估计的材料场可在任意外力下复用，不局限于特定运动
子采样策略: 有效降低计算量，使百万级粒子场景可行

局限与展望¶

需手动指定前景物体、分割背景、设定边界条件
计算量大：即使有子采样，每秒视频需约 1 分钟（NVIDIA V100）
仅限弹性物体，不支持碰撞交互
视频生成模型的质量直接影响材料估计精度
可引入3D物体发现来自动化前景提取

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次从视频生成模型蒸馏物理材料属性
实验充分度: ⭐⭐⭐⭐ — 用户研究设计严谨，但缺少定量指标对比
写作质量: ⭐⭐⭐⭐⭐ — 问题动机清晰，方法阐述详尽
实用价值: ⭐⭐⭐⭐ — 在虚拟现实和游戏领域有直接应用前景