Seeing the Wind from a Falling Leaf¶
会议: NeurIPS 2025
arXiv: 2512.00762
代码: 项目页面
领域: 视频理解 / 物理推理
关键词: 不可见力场恢复, 可微物理模拟, 逆图形学, 3D高斯, 因果三平面
一句话总结¶
提出端到端可微逆图形学框架,通过联合建模物体几何/物理属性、力场表示和物理过程,从视频中反向传播恢复不可见的力场(如风场),并支持基于物理的视频生成和编辑。
研究背景与动机¶
-
领域现状: 计算机视觉长久追求从视频建模运动,而运动背后的不可见物理交互(力)仍少有探索。系统辨识方法仅估计少量物理参数(如质量、摩擦系数)。
-
现有痛点: 力的估计远比物理参数估计困难——力是全向量,可存在于整个 3D 空间中,且密且复杂。物理模拟器的时间积分导致梯度爆炸/消失,反向传播不稳定。
-
核心矛盾: 从可见的运动中推断不可见的力——信息不完整且逆问题高度不适定。传统 photometric loss 梯度不足,密集 3D 场景流噪声大。
-
本文目标: 仅从视频输入,无需手动指定力和环境条件,恢复驱动物体运动的力场。
-
切入角度: 构建完全可微的"感知→物理→优化"流水线,用稀疏关键点追踪替代密集场景流,大幅降低优化空间维度并稳定梯度。
-
核心 idea: 3D 高斯(拉格朗日粒子)+ 因果三平面(欧拉力场)+ MPM 模拟器 + 稀疏追踪目标 = 从视频到力场的端到端可微管线。
方法详解¶
整体框架¶
四个模块:(1) 物体建模(3D 高斯 + VLM 物理属性)→ (2) 力场表示(因果三平面)→ (3) 物理过程(可微 MPM 模拟器)→ (4) 稀疏追踪优化(反向传播恢复力场)。
关键设计¶
1. 基于 3D 高斯的物体建模 + VLM 物理属性
- 功能: 统一表示物体的几何、外观和物理属性
- 核心思路: 每个 3D 高斯 \(G = \{\mathbf{x}, \mathbf{v}, \Sigma, \sigma, SH, \mathbf{D}, m, E, \nu\}\) 包含位置、速度、形状、外观以及物理属性(质量 \(m\)、杨氏模量 \(E\)、泊松比 \(\nu\))。仅用第一帧初始化高斯(通过 metric depth 模型 + Gaussian splatting)。物理属性通过 GPT-4V 从图像推断物体类型后赋予常识值,再用 Grounded SAM 分割确定每个高斯属于哪个物体。
- 设计动机: 3D 高斯作为拉格朗日粒子天然适配 MPM,且 VLM 的常识物理知识对常见物体足够鲁棒。
2. 因果三平面力场表示
- 功能: 高保真建模力场的时空连续性和因果依赖
- 核心思路: 定义力 \(\mathbf{f}(\mathbf{x}, t) = \mathcal{D}(\gamma(\mathbf{x}) + \varphi(t; \varphi(t-1)))\),其中 \(\gamma(\cdot)\) 是三平面空间特征,\(\varphi(\cdot)\) 是递归时间编码器(用上一时刻权重初始化当前时刻的 MLP),\(\mathcal{D}\) 是特征解码器。时间编码器的递归依赖实现了力的因果演化。
- 设计动机: 相比其他 4D 表示(K-Planes、HexPlane),因果三平面解耦时空,计算高效且自然建模力的时间因果性。
3. 4D 稀疏追踪目标
- 功能: 稳定可微物理优化,降低预测空间维度
- 核心思路: 使用 CoTracker 获取稀疏像素关键点运动 \(\mathbf{p}^t \to \mathbf{p}^{t+1}\),反投影到 3D 得到 \(\mathbf{P}^t\)。通过最小化重投影误差 + ARAP 约束(\(\mathcal{L}_{arap}\))获得鲁棒 3D 关键点运动 \(\mathbf{P}^t \to \mathbf{P}^{t+1}\)。关键点通过重心坐标插值控制所有高斯的运动:\(\hat{\mathbf{x}} = \alpha_i \mathbf{P}_i + \alpha_j \mathbf{P}_j + \alpha_k \mathbf{P}_k\)。
- 设计动机: Photometric loss 梯度消失,密集 3D 场景流噪声大。稀疏关键点大幅减少预测空间(从 \(N\) 个高斯到 \(N_{key}\) 个关键点),且 CoTracker 的像素级追踪比帧间深度估计更可靠。
损失函数 / 训练策略¶
\[\mathcal{L} = \mathcal{L}_{motion} + \lambda_1 \mathcal{L}_{space} + \lambda_2 \mathcal{L}_{time}\]
- \(\mathcal{L}_{motion} = |\hat{\mathbf{x}}^{t+1} - \mathbf{x}^{t+1}|\): 追踪运动匹配
- \(\mathcal{L}_{space}\): 空间全变分正则化
- \(\mathcal{L}_{time} = |\varphi_\theta^{t+1} - \varphi_\theta^t|\): 时间平滑正则化
实验关键数据¶
主实验¶
合成场景力恢复
| 材料类型 | 物体 | PSNR ↑ | SSIM ↑ | LPIPS ↓ | 幅值误差(%) ↓ | 方向误差(°) ↓ |
|---|---|---|---|---|---|---|
| 弹性体 | Lego | 33.70 | 0.98 | 0.01 | 19.53 | 7.02 |
| 弹性体 | Ficus | 25.92 | 0.94 | 0.03 | 23.97 | 11.55 |
| 弹性体 | Sunflower | 34.08 | 0.99 | 0.01 | 14.38 | 7.85 |
| 弹塑性 | Toy | 41.35 | 0.99 | 0.00 | 29.19 | 8.11 |
| 弹塑性 | Chair | 40.10 | 0.99 | 0.00 | 33.31 | 23.40 |
| 粘塑性 | Hotdog | 30.63 | 0.96 | 0.02 | 15.09 | 11.63 |
消融实验¶
| 方法 | PSNR ↑ | 幅值误差(%) ↓ | 方向误差(°) ↓ |
|---|---|---|---|
| 点力表示 | 20.57 | 95.91 | 76.48 |
| 密集场景流目标 | - | 差 | 差 |
| Photometric 目标 | - | 梯度消失 | 失败 |
| 稀疏追踪 + 因果三平面 | 33.70 | 19.53 | 7.02 |
关键发现¶
- 弹性材料力恢复最好(幅值误差 14-24%、方向误差 7-12°)
- 弹塑性材料方向误差较大(23.4° on Chair),因为塑性变形引入了额外的不确定性
- VLM 估计的物理属性对力恢复足够鲁棒——即使不精确也能给出合理的力场
- 真实世界视频的力可视化物理合理,恢复的力场可用于新物体的物理仿真
亮点与洞察¶
- 首次从视频中恢复分布式力场(而非接触力或少量参数),问题定义本身就是重要贡献
- 3D 高斯(拉格朗日)+ 三平面(欧拉)的表示完美匹配 MPM 形式化
- 稀疏追踪目标是使可微物理优化实际可行的关键——既降低了优化维度又提升了追踪鲁棒性
- 应用场景新颖:将恢复的力场施加到新物体上实现物理驱动的视频编辑
局限与展望¶
- 稀疏追踪目标主要适用于仅弯曲变形或小变形的物体
- 单帧初始化的 3D 高斯不完整(遮挡面信息缺失)
- 物理属性依赖 VLM 常识,对非常规物体可能不准确
- 当前未处理多物体碰撞交互
- 计算成本较高(per-frame 优化力场参数)
相关工作与启发¶
- 延续了 GradSim、PAC-NeRF 等可微物理逆问题的研究传统,但从参数估计升级到力场恢复
- PhysDreamer, Physics3D 等使用生成模型驱动物理动画,但需要手动指定力——本文自动恢复
- 启发:结合 3DGS 的渲染能力和 MPM 的物理模拟能力,可能催生新的物理感知视频生成范式
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 从视频恢复力场的问题定义极具开创性
- 实验充分度: ⭐⭐⭐⭐ 合成+真实场景,多种材料,消融完整,但定量评估仅在合成数据
- 写作质量: ⭐⭐⭐⭐⭐ Rossetti 诗句引入优美,技术叙述清晰
- 价值: ⭐⭐⭐⭐⭐ 桥接视觉与物理,开辟从感知到力场的新研究方向
相关论文¶
- [AAAI 2026] Seeing the Unseen: Zooming in the Dark with Event Cameras
- [CVPR 2026] SeeU: Seeing the Unseen World via 4D Dynamics-aware Generation
- [NeurIPS 2025] Photography Perspective Composition: Towards Aesthetic Perspective Recommendation
- [NeurIPS 2025] Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
- [NeurIPS 2025] LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation