跳转至

Seeing the Wind from a Falling Leaf

会议: NeurIPS 2025
arXiv: 2512.00762
代码: 项目页面
领域: 视频理解 / 物理推理
关键词: 不可见力场恢复, 可微物理模拟, 逆图形学, 3D高斯, 因果三平面

一句话总结

提出端到端可微逆图形学框架,通过联合建模物体几何/物理属性、力场表示和物理过程,从视频中反向传播恢复不可见的力场(如风场),并支持基于物理的视频生成和编辑。

研究背景与动机

  1. 领域现状: 计算机视觉长久追求从视频建模运动,而运动背后的不可见物理交互(力)仍少有探索。系统辨识方法仅估计少量物理参数(如质量、摩擦系数)。

  2. 现有痛点: 力的估计远比物理参数估计困难——力是全向量,可存在于整个 3D 空间中,且密且复杂。物理模拟器的时间积分导致梯度爆炸/消失,反向传播不稳定。

  3. 核心矛盾: 从可见的运动中推断不可见的力——信息不完整且逆问题高度不适定。传统 photometric loss 梯度不足,密集 3D 场景流噪声大。

  4. 本文目标: 仅从视频输入,无需手动指定力和环境条件,恢复驱动物体运动的力场。

  5. 切入角度: 构建完全可微的"感知→物理→优化"流水线,用稀疏关键点追踪替代密集场景流,大幅降低优化空间维度并稳定梯度。

  6. 核心 idea: 3D 高斯(拉格朗日粒子)+ 因果三平面(欧拉力场)+ MPM 模拟器 + 稀疏追踪目标 = 从视频到力场的端到端可微管线。

方法详解

整体框架

四个模块:(1) 物体建模(3D 高斯 + VLM 物理属性)→ (2) 力场表示(因果三平面)→ (3) 物理过程(可微 MPM 模拟器)→ (4) 稀疏追踪优化(反向传播恢复力场)。

关键设计

1. 基于 3D 高斯的物体建模 + VLM 物理属性

  • 功能: 统一表示物体的几何、外观和物理属性
  • 核心思路: 每个 3D 高斯 \(G = \{\mathbf{x}, \mathbf{v}, \Sigma, \sigma, SH, \mathbf{D}, m, E, \nu\}\) 包含位置、速度、形状、外观以及物理属性(质量 \(m\)、杨氏模量 \(E\)、泊松比 \(\nu\))。仅用第一帧初始化高斯(通过 metric depth 模型 + Gaussian splatting)。物理属性通过 GPT-4V 从图像推断物体类型后赋予常识值,再用 Grounded SAM 分割确定每个高斯属于哪个物体。
  • 设计动机: 3D 高斯作为拉格朗日粒子天然适配 MPM,且 VLM 的常识物理知识对常见物体足够鲁棒。

2. 因果三平面力场表示

  • 功能: 高保真建模力场的时空连续性和因果依赖
  • 核心思路: 定义力 \(\mathbf{f}(\mathbf{x}, t) = \mathcal{D}(\gamma(\mathbf{x}) + \varphi(t; \varphi(t-1)))\),其中 \(\gamma(\cdot)\) 是三平面空间特征,\(\varphi(\cdot)\) 是递归时间编码器(用上一时刻权重初始化当前时刻的 MLP),\(\mathcal{D}\) 是特征解码器。时间编码器的递归依赖实现了力的因果演化。
  • 设计动机: 相比其他 4D 表示(K-Planes、HexPlane),因果三平面解耦时空,计算高效且自然建模力的时间因果性。

3. 4D 稀疏追踪目标

  • 功能: 稳定可微物理优化,降低预测空间维度
  • 核心思路: 使用 CoTracker 获取稀疏像素关键点运动 \(\mathbf{p}^t \to \mathbf{p}^{t+1}\),反投影到 3D 得到 \(\mathbf{P}^t\)。通过最小化重投影误差 + ARAP 约束(\(\mathcal{L}_{arap}\))获得鲁棒 3D 关键点运动 \(\mathbf{P}^t \to \mathbf{P}^{t+1}\)。关键点通过重心坐标插值控制所有高斯的运动:\(\hat{\mathbf{x}} = \alpha_i \mathbf{P}_i + \alpha_j \mathbf{P}_j + \alpha_k \mathbf{P}_k\)
  • 设计动机: Photometric loss 梯度消失,密集 3D 场景流噪声大。稀疏关键点大幅减少预测空间(从 \(N\) 个高斯到 \(N_{key}\) 个关键点),且 CoTracker 的像素级追踪比帧间深度估计更可靠。

损失函数 / 训练策略

\[\mathcal{L} = \mathcal{L}_{motion} + \lambda_1 \mathcal{L}_{space} + \lambda_2 \mathcal{L}_{time}\]
  • \(\mathcal{L}_{motion} = |\hat{\mathbf{x}}^{t+1} - \mathbf{x}^{t+1}|\): 追踪运动匹配
  • \(\mathcal{L}_{space}\): 空间全变分正则化
  • \(\mathcal{L}_{time} = |\varphi_\theta^{t+1} - \varphi_\theta^t|\): 时间平滑正则化

实验关键数据

主实验

合成场景力恢复

材料类型 物体 PSNR ↑ SSIM ↑ LPIPS ↓ 幅值误差(%) ↓ 方向误差(°) ↓
弹性体 Lego 33.70 0.98 0.01 19.53 7.02
弹性体 Ficus 25.92 0.94 0.03 23.97 11.55
弹性体 Sunflower 34.08 0.99 0.01 14.38 7.85
弹塑性 Toy 41.35 0.99 0.00 29.19 8.11
弹塑性 Chair 40.10 0.99 0.00 33.31 23.40
粘塑性 Hotdog 30.63 0.96 0.02 15.09 11.63

消融实验

方法 PSNR ↑ 幅值误差(%) ↓ 方向误差(°) ↓
点力表示 20.57 95.91 76.48
密集场景流目标 -
Photometric 目标 - 梯度消失 失败
稀疏追踪 + 因果三平面 33.70 19.53 7.02

关键发现

  • 弹性材料力恢复最好(幅值误差 14-24%、方向误差 7-12°)
  • 弹塑性材料方向误差较大(23.4° on Chair),因为塑性变形引入了额外的不确定性
  • VLM 估计的物理属性对力恢复足够鲁棒——即使不精确也能给出合理的力场
  • 真实世界视频的力可视化物理合理,恢复的力场可用于新物体的物理仿真

亮点与洞察

  • 首次从视频中恢复分布式力场(而非接触力或少量参数),问题定义本身就是重要贡献
  • 3D 高斯(拉格朗日)+ 三平面(欧拉)的表示完美匹配 MPM 形式化
  • 稀疏追踪目标是使可微物理优化实际可行的关键——既降低了优化维度又提升了追踪鲁棒性
  • 应用场景新颖:将恢复的力场施加到新物体上实现物理驱动的视频编辑

局限与展望

  • 稀疏追踪目标主要适用于仅弯曲变形或小变形的物体
  • 单帧初始化的 3D 高斯不完整(遮挡面信息缺失)
  • 物理属性依赖 VLM 常识,对非常规物体可能不准确
  • 当前未处理多物体碰撞交互
  • 计算成本较高(per-frame 优化力场参数)

相关工作与启发

  • 延续了 GradSim、PAC-NeRF 等可微物理逆问题的研究传统,但从参数估计升级到力场恢复
  • PhysDreamer, Physics3D 等使用生成模型驱动物理动画,但需要手动指定力——本文自动恢复
  • 启发:结合 3DGS 的渲染能力和 MPM 的物理模拟能力,可能催生新的物理感知视频生成范式

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从视频恢复力场的问题定义极具开创性
  • 实验充分度: ⭐⭐⭐⭐ 合成+真实场景,多种材料,消融完整,但定量评估仅在合成数据
  • 写作质量: ⭐⭐⭐⭐⭐ Rossetti 诗句引入优美,技术叙述清晰
  • 价值: ⭐⭐⭐⭐⭐ 桥接视觉与物理,开辟从感知到力场的新研究方向

相关论文