FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video¶
会议: CVPR 2025
arXiv: 2503.04720
代码: https://yuegao.me/FluidNexus
领域: 3D视觉
关键词: 流体重建, 物理仿真, 视频生成, 3D高斯溅射, 可微分渲染
一句话总结¶
提出 FluidNexus,首次从单个视频实现3D流体外观和速度场的重建与未来预测,通过结合视频生成模型合成多视角参考视频,以及物理-视觉粒子耦合表示桥接可微分仿真与渲染,在新视角合成和未来预测上大幅超越现有多视角方法。
研究背景与动机¶
- 领域现状:基于视频的3D流体重建近年取得进展,如 PINF 和 HyFluid 将神经渲染与物理先验结合,但这些方法全部需要多视角同步视频作为输入。
- 现有痛点:在现实场景中多视角同步视频往往不可获得——工业监控、户外观测等场景通常只有单个相机。同时,现有方法要么不考虑物理建模无法预测未来状态(如动态3D Gaussian),要么需要已知的完整流体物理属性(如 CFD 仿真)。
- 核心矛盾:从单视角视频重建3D流体是严重不适定的——同一观测帧可对应无穷多种3D流体状态。同时流体的复杂动力学、散射效应和涡旋细节使得重建后的预测极具挑战。
- 本文目标 (1) 如何从单视角合成多视角一致的流体视频?(2) 如何从可能不一致的合成视频中重建物理合理的4D流体?(3) 如何基于重建结果预测未来流体运动并支持交互?
- 切入角度:利用视频扩散模型的流体动力学生成能力来补充缺失视角信息,再用物理约束的粒子表示从生成的多视角视频中提取物理一致的3D流体运动。
- 核心 idea:用视频生成模型合成多视角参考+物理-视觉双粒子耦合表示,实现从单视频到3D流体重建与预测的全管线。
方法详解¶
整体框架¶
FluidNexus 包含两大组件:(1) 新视角视频合成器——先用逐帧的新视角扩散模型(Zero123)为每帧合成新视角,再用视频扩散模型(CogVideoX-5b)进行时序一致性精炼,生成 \(C\) 个新视角视频;(2) 物理-视觉粒子表示——将物理粒子(参数化速度场和密度场)与视觉粒子(3D Gaussian Splatting 表示外观)耦合,通过可微分仿真和渲染从多视角视频中重建4D流体,并支持未来预测和交互仿真。
关键设计¶
-
新视角视频合成器:
- 功能:从单视角视频合成时空一致的多视角流体视频
- 核心思路:分两步——首先用相机变换条件化的图像扩散模型 \(\hat{I}_t^c = g(I_t^0, \pi_c)\) 对每帧独立合成新视角,得到空间一致但时序不一致的粗糙视频;然后用视频扩散模型 SDEdit 方式精炼,对粗糙视频加适量噪声后部分去噪 \(\mathcal{V}^c = v(\hat{\mathcal{V}}^c | \lambda_{\text{SDEdit}})\),\(\lambda_{\text{SDEdit}}\) 控制内容保持与时序一致性的平衡。对于长视频,训练无条件精炼器处理首段和条件精炼器(以前几帧为条件)递归延伸后续段。
- 设计动机:逐帧合成能保证空间几何一致性但缺乏流体动力学的时序连贯性;视频扩散精炼利用其学到的流体运动先验恢复时序一致性,两者互补。
-
物理-视觉双粒子耦合表示:
- 功能:将可微分物理仿真与可微分渲染桥接,实现同时服务重建和预测的统一表示
- 核心思路:物理粒子定义流体速度场 \(\mathbf{V}_t(\mathbf{x}) = \sum_j \mathbf{u}_{t,j} K(\mathbf{x} - \mathbf{p}_{t,j}) / \sum_j K(\mathbf{x} - \mathbf{p}_{t,j})\) 和密度场,通过 Position-Based Fluid (PBF) 进行可微分仿真,提供物理约束。视觉粒子用3D Gaussian Splatting 属性(位置、颜色、尺度、不透明度、朝向)表示外观,被速度场 advect 移动 \(\mathbf{x}_t = \text{Adv}(\mathbf{V}_t, \mathbf{x}_{t-1})\)。两者之所以需要分开是因为速度场定义在全3D空间而外观仅定义在流体可见区域。
- 设计动机:纯物理仿真在已知初始条件下准确但面对重建误差会快速发散;纯渲染表示无法预测未来状态。双粒子耦合让物理粒子提供动力学约束和预测能力,视觉粒子提供外观重建和渲染能力。
-
生成式流体仿真 (Generative Fluid Simulation):
- 功能:结合物理仿真和视频生成实现高质量的未来预测
- 核心思路:预测阶段 \((t > T)\) 先用 PBF 仿真得到粗略的物理粒子轨迹和视觉粒子位置,渲染出粗糙的多视角预测视频;然后用视频扩散模型精炼这些粗糙视频(\(\lambda_{\text{SDEdit}}=0.75\),比重建时更强的生成力度),精炼后的视频作为新的参考输入,再次运行重建算法求解未来帧的物理和外观参数。
- 设计动机:纯物理仿真因缺少温度、粘性等真实物理属性以及重建误差累积,会产生过于简化的运动并偏离真实动态。视频扩散模型的生成能力可补充物理仿真缺失的流体细节(涡旋、散射等),生成式仿真将两者优势结合。
损失函数 / 训练策略¶
- 物理损失:\(\mathcal{L}_{\text{physics}} = \lambda_{\text{sim}} ||\mathbf{p}_t - \mathbf{p}_t^{\text{sim}}||_2^2 + \mathcal{L}_{\text{incomp}}\),其中不可压缩性损失包含当前帧密度约束、下一帧密度约束和视觉粒子间最小距离约束
- 视觉损失:\(\mathcal{L}_{\text{visual}} = \sum_{c=0}^{C}(\mathcal{L}_1(I_t^c, I_t'^c) + \mathcal{L}_{\text{SSIM}}(I_t^c, I_t'^c))\),比较渲染图与参考视频
- 正则化损失:鼓励外观属性的时序一致性
- 两阶段优化:先固定外观优化物理粒子(动力学),再固定物理优化外观属性
- 损失权重:\(\lambda_{\text{sim}}=0.1\), \(\lambda_{\text{next}}=0.1\), \(\lambda_{\text{v-incomp}}=0.1\)
实验关键数据¶
主实验(ScalarFlow 数据集)¶
| 方法 | 输入 | NVS PSNR↑ | NVS SSIM↑ | 预测 PSNR↑ | ∇·V↓ |
|---|---|---|---|---|---|
| PINF | 多视角 | 22.68 | 0.7597 | 20.48 | 0.0297 |
| HyFluid | 多视角 | 22.23 | 0.7645 | 26.84 | 0.0619 |
| STG | 多视角 | 19.85 | 0.7063 | 21.79 | 0.0973 |
| FluidNexus | 单视角 | 32.45 | 0.9544 | 28.51 | 0.0126 |
消融实验(FluidNexus-Smoke 数据集)¶
| 方法 | NVS PSNR↑ | NVS LPIPS↓ | 预测 PSNR↑ | ∇·V↓ |
|---|---|---|---|---|
| PINF | 22.40 | 0.5089 | 26.48 | 0.0451 |
| HyFluid | 22.64 | 0.4764 | 21.14 | 0.0573 |
| FluidNexus | 30.62 | 0.1707 | 27.79 | 0.0246 |
关键发现¶
- 单视角 >> 多视角基线:FluidNexus 仅用单视角输入就在所有指标上大幅超越使用多视角输入的 PINF、HyFluid 和 STG(ScalarFlow 上 PSNR 32.45 vs 22.68,绝对提升近10分)。这归功于视频生成模型合成的高质量参考视频和物理-视觉耦合表示的有效性。
- 不可压缩性最优:FluidNexus 的速度场散度(∇·V)在所有方法中最低(0.0126 vs 0.0297),说明物理粒子的 PBF 仿真约束有效保证了流体的物理合理性。
- 支持交互仿真:FluidNexus 不仅能预测未来帧,还能模拟风-流体交互和物体-流体交互,这是其他方法完全不具备的能力。
- 视频精炼的平衡:SDEdit 强度在重建时用0.5(保内容多)、预测时用0.75(生成更多细节),这种自适应调节很关键。
亮点与洞察¶
- 视频生成模型作为物理先验:这是一个深刻的洞察——视频扩散模型在大量流体视频上训练后,隐式学到了流体动力学先验,可以用来补充显式物理仿真的不足。这种"生成式仿真"的范式可能广泛适用于其他物理系统。
- 双粒子解耦的巧妙设计:速度场(全空间)和外观(仅可见区域)本质上有不同的空间分布,用两种粒子分别表示并通过 advection 耦合是非常自然的设计。
- 从单视角到多任务:从一个视频出发,同时实现新视角合成、未来预测和交互仿真,展现了将视频生成、物理仿真和神经渲染三者融合的强大能力。
局限与展望¶
- 依赖视频扩散模型的质量:合成视频的多视角一致性和时序连贯性受限于扩散模型能力,复杂流体场景可能出现不一致。
- 计算开销依然较大:需要训练视频扩散模型 + 逐帧优化物理和外观参数,端到端时间较长。
- 仅针对烟雾/气体流体:未验证在液体(水流、波浪)等其他流体类型上的效果。
- 恒温恒粘假设:PBF 仿真未建模温度、粘性等属性,限制了对复杂流体行为的建模能力。
- 可改进:引入更多物理属性(温度场、浮力)到粒子表示中;用更强的3D一致视频生成模型替代 Zero123 + SDEdit 管线;扩展到液体流体的重建与预测。
相关工作与启发¶
- vs PINF / HyFluid:两者都需要多视角同步视频且不支持交互仿真。FluidNexus 用单视角视频+视频生成作为"虚拟多视角",不仅降低了输入要求还提升了性能——说明生成模型提供的先验可能比额外的真实视角更有价值。
- vs SpaceTimeGaussians:STG 是通用动态场景重建方法,不考虑物理约束因此无法预测未来。FluidNexus 的物理粒子赋予了表示物理推理能力。
- vs Sora 等视频生成:视频生成模型能模拟流体但是2D的且不可控。FluidNexus 利用其生成能力但通过物理约束将其提升为3D且可控的流体重建。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次单视频3D流体重建+预测+交互,视频生成+物理仿真融合的范式创新
- 实验充分度: ⭐⭐⭐⭐ 多数据集(含两个新数据集)、多任务评估,但缺少对各组件的详细消融
- 写作质量: ⭐⭐⭐⭐ 结构清晰,问题定义明确,但部分技术细节放到补充材料中
- 价值: ⭐⭐⭐⭐⭐ 开创性工作,将视频生成、物理仿真和神经渲染三大领域融合,应用前景广阔
相关论文¶
- [ICCV 2025] Shape of Motion: 4D Reconstruction from a Single Video
- [CVPR 2025] Coherent 3D Portrait Video Reconstruction via Triplane Fusion
- [ICCV 2025] VoluMe: Authentic 3D Video Calls from Live Gaussian Splat Prediction
- [CVPR 2025] PERSE: Personalized 3D Generative Avatars from A Single Portrait
- [CVPR 2025] SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images