Learning Physics-Grounded 4D Dynamics with Neural Gaussian Force Fields¶

会议: ICLR 2026
arXiv: 2602.00148
代码: 项目页面
领域: 3D视觉/物理仿真
关键词: 3D高斯溅射, 力场学习, 物理推理, 4D视频预测, 神经算子

一句话总结¶

提出NGFF框架，从多视角RGB图像构建3D高斯表示并学习显式神经力场驱动物理动力学，通过ODE求解实现交互式物理真实4D视频生成，比传统高斯模拟器快两个数量级，超越Veo3和NVIDIA Cosmos。

领域现状：视频生成模型产出视觉效果惊人但缺乏物理理解——频繁违反重力、物体永恒性等基本规律。结合3DGS和传统物理引擎的方法物理一致性好但计算代价高。

现有痛点：(1) 粒子/网格方法需要预定义物理模型和结构化输入，泛化差；(2) MPM-based高斯方法物理高保真但计算代价不可接受；(3) 大视频模型过拟合表面视觉特征而非学习物理原理。

核心矛盾：需要既有物理一致性（力的建模），又有计算效率（不用MPM），还能从视觉观测直接学习（不依赖结构化输入）。

切入角度：不预定义物理模型，而是学习显式力场——用神经算子预测物体间的力，通过ODE积分模拟动力学。3D高斯提供了物体感知的表示接口。

多视角RGB→前馈3D高斯重建(SAM2分割+DiffSplat精化)→PointNet编码物体特征→DeepONet预测力场→ODE积分模拟动力学→高斯渲染生成视频。

物体感知3D重建:
- 功能：前馈Transformer从多视角RGB构建3D高斯，SAM2分割为独立物体
- 核心思路：DINOv2特征→交替注意力Transformer→预测相机位姿+高斯参数。DiffSplat补全遮挡部分。
- 设计动机：物理仿真需要物体级别的分解表示
神经高斯力场 (NGFF):
- 功能：用神经算子预测物体间的全局变换力和局部应力场
- 核心思路：全局力 \(\mathbf{F}^{\text{global}}(\mathbf{z}^q(t)) = \sum_{i \in \mathcal{N}(q)} \mathbf{W}(f_\eta(\mathbf{z}^i) \odot f_\phi(\mathbf{z}^q)) + \mathbf{b}\)，局部应力 \(\mathbf{F}^{\text{local}} = \Phi(\mathbf{F}^{\text{latent}}, \text{CAM}, \mathbf{x}^q, \dot{\mathbf{x}}^q)\)，CAM是接触区域掩码
- 设计动机：全局力处理刚体平移/旋转，局部力处理软体变形。关系图编码物体间接触。
ODE积分轨迹解码:
- 功能：用二阶ODE求解器从力场积分得到物体轨迹
- 核心思路：\(\mathbf{z}^q(t) = \text{ODESolve}(\mathbf{z}^q(0), \mathbf{F}, 0, t)\)，\(\dot{\mathbf{s}}(t) = \dot{\mathbf{s}}(0) + \int_0^t \mathbf{F}(\mathbf{z}^q(t)) dt\)
- 设计动机：全可微的桥梁连接力场预测和动力学模拟

模型	空间RMSE↓	时间RMSE↓	组合RMSE↓	推理时间↓
VLM-MPM	高	高	高	>100s
Pointformer	中	中	中	中
NGFF	最低	最低	最低	~1s