跳转至

FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video

会议: CVPR 2025
arXiv: 2503.04720
代码: https://yuegao.me/FluidNexus
领域: 3D视觉
关键词: 流体重建, 物理仿真, 视频生成, 3D高斯溅射, 可微分渲染

一句话总结

提出 FluidNexus,首次从单个视频实现3D流体外观和速度场的重建与未来预测,通过结合视频生成模型合成多视角参考视频,以及物理-视觉粒子耦合表示桥接可微分仿真与渲染,在新视角合成和未来预测上大幅超越现有多视角方法。

研究背景与动机

  1. 领域现状:基于视频的3D流体重建近年取得进展,如 PINF 和 HyFluid 将神经渲染与物理先验结合,但这些方法全部需要多视角同步视频作为输入。
  2. 现有痛点:在现实场景中多视角同步视频往往不可获得——工业监控、户外观测等场景通常只有单个相机。同时,现有方法要么不考虑物理建模无法预测未来状态(如动态3D Gaussian),要么需要已知的完整流体物理属性(如 CFD 仿真)。
  3. 核心矛盾:从单视角视频重建3D流体是严重不适定的——同一观测帧可对应无穷多种3D流体状态。同时流体的复杂动力学、散射效应和涡旋细节使得重建后的预测极具挑战。
  4. 本文目标 (1) 如何从单视角合成多视角一致的流体视频?(2) 如何从可能不一致的合成视频中重建物理合理的4D流体?(3) 如何基于重建结果预测未来流体运动并支持交互?
  5. 切入角度:利用视频扩散模型的流体动力学生成能力来补充缺失视角信息,再用物理约束的粒子表示从生成的多视角视频中提取物理一致的3D流体运动。
  6. 核心 idea:用视频生成模型合成多视角参考+物理-视觉双粒子耦合表示,实现从单视频到3D流体重建与预测的全管线。

方法详解

整体框架

FluidNexus 包含两大组件:(1) 新视角视频合成器——先用逐帧的新视角扩散模型(Zero123)为每帧合成新视角,再用视频扩散模型(CogVideoX-5b)进行时序一致性精炼,生成 \(C\) 个新视角视频;(2) 物理-视觉粒子表示——将物理粒子(参数化速度场和密度场)与视觉粒子(3D Gaussian Splatting 表示外观)耦合,通过可微分仿真和渲染从多视角视频中重建4D流体,并支持未来预测和交互仿真。

关键设计

  1. 新视角视频合成器:

    • 功能:从单视角视频合成时空一致的多视角流体视频
    • 核心思路:分两步——首先用相机变换条件化的图像扩散模型 \(\hat{I}_t^c = g(I_t^0, \pi_c)\) 对每帧独立合成新视角,得到空间一致但时序不一致的粗糙视频;然后用视频扩散模型 SDEdit 方式精炼,对粗糙视频加适量噪声后部分去噪 \(\mathcal{V}^c = v(\hat{\mathcal{V}}^c | \lambda_{\text{SDEdit}})\)\(\lambda_{\text{SDEdit}}\) 控制内容保持与时序一致性的平衡。对于长视频,训练无条件精炼器处理首段和条件精炼器(以前几帧为条件)递归延伸后续段。
    • 设计动机:逐帧合成能保证空间几何一致性但缺乏流体动力学的时序连贯性;视频扩散精炼利用其学到的流体运动先验恢复时序一致性,两者互补。
  2. 物理-视觉双粒子耦合表示:

    • 功能:将可微分物理仿真与可微分渲染桥接,实现同时服务重建和预测的统一表示
    • 核心思路:物理粒子定义流体速度场 \(\mathbf{V}_t(\mathbf{x}) = \sum_j \mathbf{u}_{t,j} K(\mathbf{x} - \mathbf{p}_{t,j}) / \sum_j K(\mathbf{x} - \mathbf{p}_{t,j})\) 和密度场,通过 Position-Based Fluid (PBF) 进行可微分仿真,提供物理约束。视觉粒子用3D Gaussian Splatting 属性(位置、颜色、尺度、不透明度、朝向)表示外观,被速度场 advect 移动 \(\mathbf{x}_t = \text{Adv}(\mathbf{V}_t, \mathbf{x}_{t-1})\)。两者之所以需要分开是因为速度场定义在全3D空间而外观仅定义在流体可见区域。
    • 设计动机:纯物理仿真在已知初始条件下准确但面对重建误差会快速发散;纯渲染表示无法预测未来状态。双粒子耦合让物理粒子提供动力学约束和预测能力,视觉粒子提供外观重建和渲染能力。
  3. 生成式流体仿真 (Generative Fluid Simulation):

    • 功能:结合物理仿真和视频生成实现高质量的未来预测
    • 核心思路:预测阶段 \((t > T)\) 先用 PBF 仿真得到粗略的物理粒子轨迹和视觉粒子位置,渲染出粗糙的多视角预测视频;然后用视频扩散模型精炼这些粗糙视频(\(\lambda_{\text{SDEdit}}=0.75\),比重建时更强的生成力度),精炼后的视频作为新的参考输入,再次运行重建算法求解未来帧的物理和外观参数。
    • 设计动机:纯物理仿真因缺少温度、粘性等真实物理属性以及重建误差累积,会产生过于简化的运动并偏离真实动态。视频扩散模型的生成能力可补充物理仿真缺失的流体细节(涡旋、散射等),生成式仿真将两者优势结合。

损失函数 / 训练策略

  • 物理损失\(\mathcal{L}_{\text{physics}} = \lambda_{\text{sim}} ||\mathbf{p}_t - \mathbf{p}_t^{\text{sim}}||_2^2 + \mathcal{L}_{\text{incomp}}\),其中不可压缩性损失包含当前帧密度约束、下一帧密度约束和视觉粒子间最小距离约束
  • 视觉损失\(\mathcal{L}_{\text{visual}} = \sum_{c=0}^{C}(\mathcal{L}_1(I_t^c, I_t'^c) + \mathcal{L}_{\text{SSIM}}(I_t^c, I_t'^c))\),比较渲染图与参考视频
  • 正则化损失:鼓励外观属性的时序一致性
  • 两阶段优化:先固定外观优化物理粒子(动力学),再固定物理优化外观属性
  • 损失权重:\(\lambda_{\text{sim}}=0.1\), \(\lambda_{\text{next}}=0.1\), \(\lambda_{\text{v-incomp}}=0.1\)

实验关键数据

主实验(ScalarFlow 数据集)

方法 输入 NVS PSNR↑ NVS SSIM↑ 预测 PSNR↑ ∇·V↓
PINF 多视角 22.68 0.7597 20.48 0.0297
HyFluid 多视角 22.23 0.7645 26.84 0.0619
STG 多视角 19.85 0.7063 21.79 0.0973
FluidNexus 单视角 32.45 0.9544 28.51 0.0126

消融实验(FluidNexus-Smoke 数据集)

方法 NVS PSNR↑ NVS LPIPS↓ 预测 PSNR↑ ∇·V↓
PINF 22.40 0.5089 26.48 0.0451
HyFluid 22.64 0.4764 21.14 0.0573
FluidNexus 30.62 0.1707 27.79 0.0246

关键发现

  • 单视角 >> 多视角基线:FluidNexus 仅用单视角输入就在所有指标上大幅超越使用多视角输入的 PINF、HyFluid 和 STG(ScalarFlow 上 PSNR 32.45 vs 22.68,绝对提升近10分)。这归功于视频生成模型合成的高质量参考视频和物理-视觉耦合表示的有效性。
  • 不可压缩性最优:FluidNexus 的速度场散度(∇·V)在所有方法中最低(0.0126 vs 0.0297),说明物理粒子的 PBF 仿真约束有效保证了流体的物理合理性。
  • 支持交互仿真:FluidNexus 不仅能预测未来帧,还能模拟风-流体交互和物体-流体交互,这是其他方法完全不具备的能力。
  • 视频精炼的平衡:SDEdit 强度在重建时用0.5(保内容多)、预测时用0.75(生成更多细节),这种自适应调节很关键。

亮点与洞察

  • 视频生成模型作为物理先验:这是一个深刻的洞察——视频扩散模型在大量流体视频上训练后,隐式学到了流体动力学先验,可以用来补充显式物理仿真的不足。这种"生成式仿真"的范式可能广泛适用于其他物理系统。
  • 双粒子解耦的巧妙设计:速度场(全空间)和外观(仅可见区域)本质上有不同的空间分布,用两种粒子分别表示并通过 advection 耦合是非常自然的设计。
  • 从单视角到多任务:从一个视频出发,同时实现新视角合成、未来预测和交互仿真,展现了将视频生成、物理仿真和神经渲染三者融合的强大能力。

局限与展望

  • 依赖视频扩散模型的质量:合成视频的多视角一致性和时序连贯性受限于扩散模型能力,复杂流体场景可能出现不一致。
  • 计算开销依然较大:需要训练视频扩散模型 + 逐帧优化物理和外观参数,端到端时间较长。
  • 仅针对烟雾/气体流体:未验证在液体(水流、波浪)等其他流体类型上的效果。
  • 恒温恒粘假设:PBF 仿真未建模温度、粘性等属性,限制了对复杂流体行为的建模能力。
  • 可改进:引入更多物理属性(温度场、浮力)到粒子表示中;用更强的3D一致视频生成模型替代 Zero123 + SDEdit 管线;扩展到液体流体的重建与预测。

相关工作与启发

  • vs PINF / HyFluid:两者都需要多视角同步视频且不支持交互仿真。FluidNexus 用单视角视频+视频生成作为"虚拟多视角",不仅降低了输入要求还提升了性能——说明生成模型提供的先验可能比额外的真实视角更有价值。
  • vs SpaceTimeGaussians:STG 是通用动态场景重建方法,不考虑物理约束因此无法预测未来。FluidNexus 的物理粒子赋予了表示物理推理能力。
  • vs Sora 等视频生成:视频生成模型能模拟流体但是2D的且不可控。FluidNexus 利用其生成能力但通过物理约束将其提升为3D且可控的流体重建。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次单视频3D流体重建+预测+交互,视频生成+物理仿真融合的范式创新
  • 实验充分度: ⭐⭐⭐⭐ 多数据集(含两个新数据集)、多任务评估,但缺少对各组件的详细消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,问题定义明确,但部分技术细节放到补充材料中
  • 价值: ⭐⭐⭐⭐⭐ 开创性工作,将视频生成、物理仿真和神经渲染三大领域融合,应用前景广阔

相关论文