Seeing the Wind from a Falling Leaf¶

会议: NeurIPS 2025
arXiv: 2512.00762
代码: 项目页面
领域: 视频理解 / 物理推理
关键词: 不可见力场恢复, 可微物理模拟, 逆图形学, 3D高斯, 因果三平面

一句话总结¶

提出端到端可微逆图形学框架，通过联合建模物体几何/物理属性、力场表示和物理过程，从视频中反向传播恢复不可见的力场（如风场），并支持基于物理的视频生成和编辑。

领域现状: 计算机视觉长久追求从视频建模运动，而运动背后的不可见物理交互（力）仍少有探索。系统辨识方法仅估计少量物理参数（如质量、摩擦系数）。
现有痛点: 力的估计远比物理参数估计困难——力是全向量，可存在于整个 3D 空间中，且密且复杂。物理模拟器的时间积分导致梯度爆炸/消失，反向传播不稳定。
核心矛盾: 从可见的运动中推断不可见的力——信息不完整且逆问题高度不适定。传统 photometric loss 梯度不足，密集 3D 场景流噪声大。
本文目标: 仅从视频输入，无需手动指定力和环境条件，恢复驱动物体运动的力场。
切入角度: 构建完全可微的"感知→物理→优化"流水线，用稀疏关键点追踪替代密集场景流，大幅降低优化空间维度并稳定梯度。
核心 idea: 3D 高斯（拉格朗日粒子）+ 因果三平面（欧拉力场）+ MPM 模拟器 + 稀疏追踪目标 = 从视频到力场的端到端可微管线。

四个模块：(1) 物体建模（3D 高斯 + VLM 物理属性）→ (2) 力场表示（因果三平面）→ (3) 物理过程（可微 MPM 模拟器）→ (4) 稀疏追踪优化（反向传播恢复力场）。

1. 基于 3D 高斯的物体建模 + VLM 物理属性

功能: 统一表示物体的几何、外观和物理属性
核心思路: 每个 3D 高斯 \(G = \{\mathbf{x}, \mathbf{v}, \Sigma, \sigma, SH, \mathbf{D}, m, E, \nu\}\) 包含位置、速度、形状、外观以及物理属性（质量 \(m\)、杨氏模量 \(E\)、泊松比 \(\nu\)）。仅用第一帧初始化高斯（通过 metric depth 模型 + Gaussian splatting）。物理属性通过 GPT-4V 从图像推断物体类型后赋予常识值，再用 Grounded SAM 分割确定每个高斯属于哪个物体。
设计动机: 3D 高斯作为拉格朗日粒子天然适配 MPM，且 VLM 的常识物理知识对常见物体足够鲁棒。

2. 因果三平面力场表示

功能: 高保真建模力场的时空连续性和因果依赖
核心思路: 定义力 \(\mathbf{f}(\mathbf{x}, t) = \mathcal{D}(\gamma(\mathbf{x}) + \varphi(t; \varphi(t-1)))\)，其中 \(\gamma(\cdot)\) 是三平面空间特征，\(\varphi(\cdot)\) 是递归时间编码器（用上一时刻权重初始化当前时刻的 MLP），\(\mathcal{D}\) 是特征解码器。时间编码器的递归依赖实现了力的因果演化。
设计动机: 相比其他 4D 表示（K-Planes、HexPlane），因果三平面解耦时空，计算高效且自然建模力的时间因果性。

3. 4D 稀疏追踪目标

功能: 稳定可微物理优化，降低预测空间维度
核心思路: 使用 CoTracker 获取稀疏像素关键点运动 \(\mathbf{p}^t \to \mathbf{p}^{t+1}\)，反投影到 3D 得到 \(\mathbf{P}^t\)。通过最小化重投影误差 + ARAP 约束（\(\mathcal{L}_{arap}\)）获得鲁棒 3D 关键点运动 \(\mathbf{P}^t \to \mathbf{P}^{t+1}\)。关键点通过重心坐标插值控制所有高斯的运动：\(\hat{\mathbf{x}} = \alpha_i \mathbf{P}_i + \alpha_j \mathbf{P}_j + \alpha_k \mathbf{P}_k\)。
设计动机: Photometric loss 梯度消失，密集 3D 场景流噪声大。稀疏关键点大幅减少预测空间（从 \(N\) 个高斯到 \(N_{key}\) 个关键点），且 CoTracker 的像素级追踪比帧间深度估计更可靠。

\[\mathcal{L} = \mathcal{L}_{motion} + \lambda_1 \mathcal{L}_{space} + \lambda_2 \mathcal{L}_{time}\]

合成场景力恢复

材料类型	物体	PSNR ↑	SSIM ↑	LPIPS ↓	幅值误差(%) ↓	方向误差(°) ↓
弹性体	Lego	33.70	0.98	0.01	19.53	7.02
弹性体	Ficus	25.92	0.94	0.03	23.97	11.55
弹性体	Sunflower	34.08	0.99	0.01	14.38	7.85
弹塑性	Toy	41.35	0.99	0.00	29.19	8.11
弹塑性	Chair	40.10	0.99	0.00	33.31	23.40
粘塑性	Hotdog	30.63	0.96	0.02	15.09	11.63

方法	PSNR ↑	幅值误差(%) ↓	方向误差(°) ↓
点力表示	20.57	95.91	76.48
密集场景流目标	-	差	差
Photometric 目标	-	梯度消失	失败
稀疏追踪 + 因果三平面	33.70	19.53	7.02