FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video¶

会议: CVPR 2025
arXiv: 2503.04720
代码: https://yuegao.me/FluidNexus
领域: 3D视觉
关键词: 流体重建, 物理仿真, 视频生成, 3D高斯溅射, 可微分渲染

一句话总结¶

提出 FluidNexus，首次从单个视频实现3D流体外观和速度场的重建与未来预测，通过结合视频生成模型合成多视角参考视频，以及物理-视觉粒子耦合表示桥接可微分仿真与渲染，在新视角合成和未来预测上大幅超越现有多视角方法。

研究背景与动机¶

领域现状：基于视频的3D流体重建近年取得进展，如 PINF 和 HyFluid 将神经渲染与物理先验结合，但这些方法全部需要多视角同步视频作为输入。
现有痛点：在现实场景中多视角同步视频往往不可获得——工业监控、户外观测等场景通常只有单个相机。同时，现有方法要么不考虑物理建模无法预测未来状态（如动态3D Gaussian），要么需要已知的完整流体物理属性（如 CFD 仿真）。
核心矛盾：从单视角视频重建3D流体是严重不适定的——同一观测帧可对应无穷多种3D流体状态。同时流体的复杂动力学、散射效应和涡旋细节使得重建后的预测极具挑战。
本文目标 (1) 如何从单视角合成多视角一致的流体视频？(2) 如何从可能不一致的合成视频中重建物理合理的4D流体？(3) 如何基于重建结果预测未来流体运动并支持交互？
切入角度：利用视频扩散模型的流体动力学生成能力来补充缺失视角信息，再用物理约束的粒子表示从生成的多视角视频中提取物理一致的3D流体运动。
核心 idea：用视频生成模型合成多视角参考+物理-视觉双粒子耦合表示，实现从单视频到3D流体重建与预测的全管线。

方法详解¶

整体框架¶

FluidNexus 包含两大组件：(1) 新视角视频合成器——先用逐帧的新视角扩散模型（Zero123）为每帧合成新视角，再用视频扩散模型（CogVideoX-5b）进行时序一致性精炼，生成 \(C\) 个新视角视频；(2) 物理-视觉粒子表示——将物理粒子（参数化速度场和密度场）与视觉粒子（3D Gaussian Splatting 表示外观）耦合，通过可微分仿真和渲染从多视角视频中重建4D流体，并支持未来预测和交互仿真。

关键设计¶

新视角视频合成器:
- 功能：从单视角视频合成时空一致的多视角流体视频
- 核心思路：分两步——首先用相机变换条件化的图像扩散模型 \(\hat{I}_t^c = g(I_t^0, \pi_c)\) 对每帧独立合成新视角，得到空间一致但时序不一致的粗糙视频；然后用视频扩散模型 SDEdit 方式精炼，对粗糙视频加适量噪声后部分去噪 \(\mathcal{V}^c = v(\hat{\mathcal{V}}^c | \lambda_{\text{SDEdit}})\)，\(\lambda_{\text{SDEdit}}\) 控制内容保持与时序一致性的平衡。对于长视频，训练无条件精炼器处理首段和条件精炼器（以前几帧为条件）递归延伸后续段。
- 设计动机：逐帧合成能保证空间几何一致性但缺乏流体动力学的时序连贯性；视频扩散精炼利用其学到的流体运动先验恢复时序一致性，两者互补。
物理-视觉双粒子耦合表示:
- 功能：将可微分物理仿真与可微分渲染桥接，实现同时服务重建和预测的统一表示
- 核心思路：物理粒子定义流体速度场 \(\mathbf{V}_t(\mathbf{x}) = \sum_j \mathbf{u}_{t,j} K(\mathbf{x} - \mathbf{p}_{t,j}) / \sum_j K(\mathbf{x} - \mathbf{p}_{t,j})\) 和密度场，通过 Position-Based Fluid (PBF) 进行可微分仿真，提供物理约束。视觉粒子用3D Gaussian Splatting 属性（位置、颜色、尺度、不透明度、朝向）表示外观，被速度场 advect 移动 \(\mathbf{x}_t = \text{Adv}(\mathbf{V}_t, \mathbf{x}_{t-1})\)。两者之所以需要分开是因为速度场定义在全3D空间而外观仅定义在流体可见区域。
- 设计动机：纯物理仿真在已知初始条件下准确但面对重建误差会快速发散；纯渲染表示无法预测未来状态。双粒子耦合让物理粒子提供动力学约束和预测能力，视觉粒子提供外观重建和渲染能力。
生成式流体仿真 (Generative Fluid Simulation):
- 功能：结合物理仿真和视频生成实现高质量的未来预测
- 核心思路：预测阶段 \((t > T)\) 先用 PBF 仿真得到粗略的物理粒子轨迹和视觉粒子位置，渲染出粗糙的多视角预测视频；然后用视频扩散模型精炼这些粗糙视频（\(\lambda_{\text{SDEdit}}=0.75\)，比重建时更强的生成力度），精炼后的视频作为新的参考输入，再次运行重建算法求解未来帧的物理和外观参数。
- 设计动机：纯物理仿真因缺少温度、粘性等真实物理属性以及重建误差累积，会产生过于简化的运动并偏离真实动态。视频扩散模型的生成能力可补充物理仿真缺失的流体细节（涡旋、散射等），生成式仿真将两者优势结合。

损失函数 / 训练策略¶

物理损失：\(\mathcal{L}_{\text{physics}} = \lambda_{\text{sim}} ||\mathbf{p}_t - \mathbf{p}_t^{\text{sim}}||_2^2 + \mathcal{L}_{\text{incomp}}\)，其中不可压缩性损失包含当前帧密度约束、下一帧密度约束和视觉粒子间最小距离约束
视觉损失：\(\mathcal{L}_{\text{visual}} = \sum_{c=0}^{C}(\mathcal{L}_1(I_t^c, I_t'^c) + \mathcal{L}_{\text{SSIM}}(I_t^c, I_t'^c))\)，比较渲染图与参考视频
正则化损失：鼓励外观属性的时序一致性
两阶段优化：先固定外观优化物理粒子（动力学），再固定物理优化外观属性
损失权重：\(\lambda_{\text{sim}}=0.1\), \(\lambda_{\text{next}}=0.1\), \(\lambda_{\text{v-incomp}}=0.1\)

实验关键数据¶

主实验（ScalarFlow 数据集）¶

方法	输入	NVS PSNR↑	NVS SSIM↑	预测 PSNR↑	∇·V↓
PINF	多视角	22.68	0.7597	20.48	0.0297
HyFluid	多视角	22.23	0.7645	26.84	0.0619
STG	多视角	19.85	0.7063	21.79	0.0973
FluidNexus	单视角	32.45	0.9544	28.51	0.0126

消融实验（FluidNexus-Smoke 数据集）¶

方法	NVS PSNR↑	NVS LPIPS↓	预测 PSNR↑	∇·V↓
PINF	22.40	0.5089	26.48	0.0451
HyFluid	22.64	0.4764	21.14	0.0573
FluidNexus	30.62	0.1707	27.79	0.0246

关键发现¶

单视角 >> 多视角基线：FluidNexus 仅用单视角输入就在所有指标上大幅超越使用多视角输入的 PINF、HyFluid 和 STG（ScalarFlow 上 PSNR 32.45 vs 22.68，绝对提升近10分）。这归功于视频生成模型合成的高质量参考视频和物理-视觉耦合表示的有效性。
不可压缩性最优：FluidNexus 的速度场散度（∇·V）在所有方法中最低（0.0126 vs 0.0297），说明物理粒子的 PBF 仿真约束有效保证了流体的物理合理性。
支持交互仿真：FluidNexus 不仅能预测未来帧，还能模拟风-流体交互和物体-流体交互，这是其他方法完全不具备的能力。
视频精炼的平衡：SDEdit 强度在重建时用0.5（保内容多）、预测时用0.75（生成更多细节），这种自适应调节很关键。

亮点与洞察¶

视频生成模型作为物理先验：这是一个深刻的洞察——视频扩散模型在大量流体视频上训练后，隐式学到了流体动力学先验，可以用来补充显式物理仿真的不足。这种"生成式仿真"的范式可能广泛适用于其他物理系统。
双粒子解耦的巧妙设计：速度场（全空间）和外观（仅可见区域）本质上有不同的空间分布，用两种粒子分别表示并通过 advection 耦合是非常自然的设计。
从单视角到多任务：从一个视频出发，同时实现新视角合成、未来预测和交互仿真，展现了将视频生成、物理仿真和神经渲染三者融合的强大能力。

局限与展望¶

依赖视频扩散模型的质量：合成视频的多视角一致性和时序连贯性受限于扩散模型能力，复杂流体场景可能出现不一致。
计算开销依然较大：需要训练视频扩散模型 + 逐帧优化物理和外观参数，端到端时间较长。
仅针对烟雾/气体流体：未验证在液体（水流、波浪）等其他流体类型上的效果。
恒温恒粘假设：PBF 仿真未建模温度、粘性等属性，限制了对复杂流体行为的建模能力。
可改进：引入更多物理属性（温度场、浮力）到粒子表示中；用更强的3D一致视频生成模型替代 Zero123 + SDEdit 管线；扩展到液体流体的重建与预测。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次单视频3D流体重建+预测+交互，视频生成+物理仿真融合的范式创新
实验充分度: ⭐⭐⭐⭐ 多数据集（含两个新数据集）、多任务评估，但缺少对各组件的详细消融
写作质量: ⭐⭐⭐⭐ 结构清晰，问题定义明确，但部分技术细节放到补充材料中
价值: ⭐⭐⭐⭐⭐ 开创性工作，将视频生成、物理仿真和神经渲染三大领域融合，应用前景广阔