跳转至

PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation

会议: ECCV 2024
arXiv: 2404.13026
代码: physdreamer.github.io (有)
领域: 3D视觉
关键词: 物理仿真, 3D高斯, 视频生成先验, 材料属性估计, 交互动力学

一句话总结

利用视频生成模型中隐含的物理动力学先验,为静态3D高斯对象估计空间变化的杨氏模量材料场,从而实现物理合理的交互式3D动力学合成。

研究背景与动机

  • 领域现状: 近年来3D视觉在高质量静态3D资产重建方面取得显著进展(如3D Gaussian Splatting、NeRF),部分方法甚至扩展到4D资产生成无条件动态;但现有方法无法合成响应外力等新物理交互的动作条件动力学
  • 现有痛点: 合成动作条件动力学的核心挑战在于理解对象的物理材料属性(如刚度),但真实物体的材料属性测量极其困难、缺乏ground-truth数据;现实物体常具有复杂的空间变化材料属性,使估计更加困难
  • 核心矛盾: 物理仿真需要已知材料参数(如杨氏模量 \(E\))才能正确模拟动力学,但这些参数无法直接从外观获取;手动设定参数无法保证物理真实性
  • 本文解决什么: 如何在没有材料ground-truth的情况下,为静态3D对象估计物理材料属性,使其能够以物理合理的方式响应任意交互
  • 切入角度: 人类可以轻松想象物体受力后的反应(如玫瑰在微风中摇曳),这种能力源于从大量物理世界观察中获得的先验知识;视频生成模型在大规模视频数据上训练后,隐式捕获了外观与动力学之间的关系
  • 核心idea: 从预训练视频生成模型中蒸馏物理动力学先验,通过可微分物理仿真和渲染反向优化材料场,使模拟视频匹配视频模型生成的参考视频

方法详解

整体框架

PhysDreamer 的流程分为三个阶段: 1. 参考视频生成:从特定视角渲染3D高斯的静态图像,用 Stable Video Diffusion 生成运动参考视频 2. 物理参数优化:通过可微分 MPM 仿真 + 可微分渲染,优化材料场 \(E(\bm{x})\) 和初始速度场 \(\bm{v}_0(\bm{x})\),使渲染视频匹配参考视频 3. 交互式运动合成:利用估计的材料场,在任意外力下通过 MPM 仿真生成物理合理的3D动力学

关键设计

模块一:连续介质力学与弹性材料模型

采用 Fixed Corotated 超弹性材料模型,应变能量密度函数为:

\[\psi(\mathbf{F}) = \mu \left(\sum_{i=1}^{d}(\sigma_i - 1)^2\right) + \frac{\lambda}{2}(\det(\bm{F}) - 1)^2\]

其中 \(\sigma_i\) 为变形梯度的奇异值,Lamé 参数与杨氏模量 \(E\) 和泊松比 \(\nu\) 的关系为:

\[\mu = \frac{E}{2(1+\nu)}, \quad \lambda = \frac{E\nu}{(1+\nu)(1-2\nu)}\]

杨氏模量 \(E\) 决定材料刚度:高 \(E\) 导致小振幅、高频运动(刚性),低 \(E\) 导致大振幅、低频运动(柔软)。

模块二:可微分 MPM 仿真与参数优化

将3D高斯粒子作为 MPM 的空间离散化,通过 P2G(粒子到网格)和 G2P(网格到粒子)传递循环模拟动力学。单步仿真可表示为:

\[\bm{x}^{t+1}, \bm{v}^{t+1}, \bm{F}^{t+1}, \bm{C}^{t+1} = \mathcal{S}(\bm{x}^t, \bm{v}^t, \bm{F}^t, \bm{C}^t, \bm{\theta}, \Delta t)\]

物理参数 \(\bm{\theta}\) 包括质量、杨氏模量、泊松比和体积。材料场和速度场用 triplane + 三层 MLP 参数化。

模块三:K-Means 子采样加速仿真

高保真渲染需要数百万粒子,全部仿真计算量过大。通过 K-Means 聚类创建驱动粒子集 \(\{Q_q\}_{q=1}^Q\)\(Q \ll P\)),仅对驱动粒子运行仿真。渲染时,每个3D高斯通过对最近的8个驱动粒子拟合刚体变换来插值获取位置和旋转。

损失函数 / 训练策略

像素级匹配损失

\[L^t = \lambda L_1(\hat{I}^t, I^t) + (1-\lambda) L_{\text{D-SSIM}}(\hat{I}^t, I^t), \quad \lambda = 0.1\]

全变分正则化(鼓励空间平滑):

\[L_{\text{tv}} = \sum_{i,j} \|\bm{u}_{i+1,j} - \bm{u}_{i,j}\|_2^2 + \|\bm{u}_{i,j+1} - \bm{u}_{i,j}\|_2^2\]

两阶段优化策略: - 第一阶段:随机初始化杨氏模量并冻结,仅用前三帧优化初始速度 - 第二阶段:冻结初始速度,优化空间变化的杨氏模量;梯度仅回传到上一帧以防梯度爆炸

实验关键数据

主实验

用户研究(2AFC 协议,100名参与者,800个判断样本):

比较对象 运动真实性偏好 视觉质量偏好
Ours vs PhysGaussian 80.8% 65.0%
Ours vs DreamGaussian4D 63.5% 70.0%
Ours vs 真实拍摄 53.7% 37.3%

消融实验

设置 多视角监督用户偏好(视觉质量) 多视角监督用户偏好(运动真实性)
单视角参考视频 基准 基准
双视角参考视频 81.0% 偏好双视角 86.0% 偏好双视角

关键发现

  1. PhysGaussian 因缺乏材料属性估计机制,产生大幅度、不真实的慢速运动
  2. DreamGaussian4D 生成周期性恒定小幅运动,无法模拟真实的阻尼效果
  3. 在 Alocasia 场景中,86% 用户认为 PhysDreamer 比真实拍摄更真实——可能因为 MPM 对薄几何体产生更低频、更平滑的运动,而人类倾向于偏好平滑运动
  4. 多视角参考视频对自遮挡严重的物体(如 Alocasia)极为重要

亮点与洞察

  • 巧妙的先验蒸馏思路: 利用视频生成模型作为"物理直觉"的代理,绕过了材料属性测量的难题
  • 完整的可微分管线: 仿真→渲染→损失全程可微,支持端到端优化
  • 物理一致性: 估计的材料场可在任意外力下复用,不局限于特定运动
  • 子采样策略: 有效降低计算量,使百万级粒子场景可行

局限与展望

  • 需手动指定前景物体、分割背景、设定边界条件
  • 计算量大:即使有子采样,每秒视频需约 1 分钟(NVIDIA V100)
  • 仅限弹性物体,不支持碰撞交互
  • 视频生成模型的质量直接影响材料估计精度
  • 可引入3D物体发现来自动化前景提取

相关工作与启发

  • PhysGaussian: 将 MPM 仿真集成到3D高斯中,但依赖手动设定材料参数
  • DreamGaussian4D: 通过蒸馏变形场从视频生成模型合成4D内容,但不支持物理交互
  • Generative Image Dynamics: 用扩散模型学习图像空间的模态基,实现2D图像交互
  • PAC-NeRF / DANO: 物理仿真与隐式表示结合,但缺少从生成模型蒸馏材料参数的能力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次从视频生成模型蒸馏物理材料属性
  • 实验充分度: ⭐⭐⭐⭐ — 用户研究设计严谨,但缺少定量指标对比
  • 写作质量: ⭐⭐⭐⭐⭐ — 问题动机清晰,方法阐述详尽
  • 实用价值: ⭐⭐⭐⭐ — 在虚拟现实和游戏领域有直接应用前景

相关论文