Structure from Collision¶
会议: CVPR 2025
arXiv: 2505.21335
代码: 无(项目页面: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/sfc/ )
领域: 3D视觉 / 神经3D表示
关键词: 内部结构估计, NeRF, 碰撞, 物理约束, 逆向工程
一句话总结¶
提出全新任务"碰撞中的结构重建"(SfC),旨在通过观察物体碰撞时的外观变化来推断其不可见的内部结构(如空腔),并设计 SfC-NeRF 模型在物理约束、外观保持约束、关键帧约束和体积退火策略下优化内部密度场,在包含 115 个不同结构/材料的物体数据集上验证了方法的有效性。
研究背景与动机¶
领域现状:NeRF 和 3DGS 等神经3D表示技术已经能从多视角图像精确估计物体的3D结构。物理增强的变体(如 PAC-NeRF)进一步将可微物理模拟整合进 NeRF,支持对弹性材料、流体等连续体材料的动态模拟和系统辨识(如从视频序列中识别杨氏模量等物理属性)。
现有痛点:所有现有方法都只能估计可见的外部结构,对于隐藏在表面背后的不可见内部结构(如空腔、中空区域)无能为力。即使两个物体的内部结构完全不同,只要外观相同,静态 NeRF 就会学到完全一样的3D表示。这在虚拟/增强现实中的物体复现、机器人抓取力控制等应用中会导致严重问题。
核心矛盾:内部结构不可直接观测,但它通过影响物体的物理行为(如碰撞变形)间接表现在外部——然而这是一个严重的不适定问题,因为多种内部结构都可能产生相似的碰撞行为。
本文目标:定义 SfC 任务——通过碰撞视频中的外观变化来推断物体的内部结构(包括空腔的形状、位置和大小)。
切入角度:碰撞时物体的变形模式受内部结构影响(如空腔位置不同导致凹陷方向不同)。如果假设材料物理属性已知(如杨氏模量、泊松比、密度和质量),就可以将SfC视为PAC-NeRF的互补问题——PAC-NeRF假设内部填满优化物理属性,SfC则假设物理属性已知优化内部结构。
核心 idea:在已知物理属性下,通过视频序列优化体素 NeRF 的内部体积密度 \(\sigma^{G'}(t_0)\),使物理模拟的碰撞变形与观测视频一致,同时保持外部结构不变。
方法详解¶
整体框架¶
SfC-NeRF 采用两步优化。第一步:用视频第一帧多视角图像训练标准体素 NeRF,学到填满的物体外部结构(此时内部是实心的)。第二步:固定外部结构,通过整个碰撞视频序列优化内部体积密度。第二步的 pipeline:(1) 从体素网格 \(\mathcal{F}^{G'}(t_0)\) 通过 G2P 转换得到粒子集 \(\mathcal{P}^P(t_0)\);(2) 用可微材料点方法(DiffMPM)模拟物理碰撞,推进粒子到各个时间步;(3) 通过 P2G 转换回网格并渲染各帧图像;(4) 比较渲染与真实帧,反传梯度更新 \(\sigma^{G'}(t_0)\)。
关键设计¶
-
物理约束(材料属性 + 质量损失):
- 功能:利用已知物理属性缩小不适定问题的解空间
- 核心思路:材料属性(杨氏模量 \(\hat{E}\)、泊松比 \(\hat{\nu}\)、密度 \(\hat{\rho}\))在构建 DiffMPM 时显式编码。质量约束通过损失函数 \(\mathcal{L}_{mass} = \|\log_{10}(m) - \log_{10}(\hat{m})\|_2^2\) 实现,其中 \(m = \sum_{p} \hat{\rho} \cdot (\frac{\Delta x}{2})^3 \cdot \alpha_p^P\),即各粒子质量之和。用对数尺度优先匹配数量级
- 设计动机:内部结构与物理属性(如弹性)存在互依赖关系——空心和软材料都能产生高弹性。通过固定物理属性,将自由度限制到内部结构上
-
外观保持约束(损失 + 训练策略):
- 功能:在优化内部结构时保持第一步学到的外部表面不被破坏
- 核心思路:外观保持损失:额外的像素保持损失 \(\mathcal{L}_{pixel_0}\) 强化第一帧的重建质量,深度保持损失 \(\mathcal{L}_{depth_0}\) 通过比较当前模型和优化前模型的深度图差分(水平+垂直)来保持3D表面形状。用差分而非原始深度以缓解深度估计误差。外观保持训练:每次完成视频序列优化后,重新用第一帧重新优化 \(\mathcal{F}^{G'}(t_0)\),修复可能受损的外部结构
- 设计动机:直接优化内部密度场理论上不应改变不透明物体的外观,但实际中由于梯度传播和优化动态,外部结构会被意外修改
-
体积退火(Volume Annealing):
- 功能:通过反复缩小和扩大体积来搜索全局最优,避免陷入局部最优
- 核心思路:优化从实心状态开始(第一步结果),通过物理和质量约束减小体积(创造空腔)。当体积缩减方向错误时可能陷入局部最优。体积退火通过交替执行体积缩减(正常优化)和体积扩张(G2P→P2G 转换并替换 \(\mathcal{F}^{G'}\))实现类似模拟退火的效果
- 设计动机:SfC 存在多个可行解(同一质量约束下空腔可以在不同位置),从实心开始的优化容易困在第一个找到的解。退火策略提供了跳出局部最优的机制
损失函数 / 训练策略¶
总损失 \(\mathcal{L}_{full} = \mathcal{L}_{pixel} + \lambda_{mass}\mathcal{L}_{mass} + \lambda_{pres}(\mathcal{L}_{pixel_0} + w_{depth}\mathcal{L}_{depth_0}) + \lambda_{key}\mathcal{L}_{pixel_k}\)。其中关键帧损失 \(\mathcal{L}_{pixel_k}\) 对碰撞刚发生后的帧给予额外权重(因为此帧最能反映内部结构引起的形变差异)。还使用了视频抠图生成的背景掩码来排除静态背景,集中计算在目标物体上。
实验关键数据¶
主实验¶
空腔大小 \(s_c\) 变化实验(Chamfer Distance ×10³ ↓,5种外部形状的平均值):
| 方法 | \(s_c\)=0 (实心) | \(s_c\)=(1/2)³ | \(s_c\)=(2/3)³ | \(s_c\)=(3/4)³ | 平均 |
|---|---|---|---|---|---|
| Static (仅第一帧) | 0.093 | 0.294 | 0.920 | 1.574 | 0.720 |
| GO | 0.091 | 0.301 | 0.941 | 1.586 | 0.730 |
| LPO | 0.092 | 0.284 | 0.841 | 1.406 | 0.656 |
| SfC-NeRF | 0.081 | 0.122 | 0.195 | 0.262 | 0.165 |
消融实验¶
| 配置 | \(s_c\)=(2/3)³ CD | 平均 CD | 说明 |
|---|---|---|---|
| SfC-NeRF (full) | 0.195 | 0.165 | 完整模型 |
| w/o mass loss | 0.550 | 0.503 | 去掉质量约束,性能大幅下降 |
| w/o AP loss | 0.898 | 0.688 | 去掉外观保持损失 |
| w/o AP training | 0.332 | 0.335 | 去掉外观保持训练 |
| w/o keyframe | 0.211 | 0.186 | 去掉关键帧约束 |
| w/o volume annealing | 0.370 | 0.316 | 去掉体积退火 |
空腔位置 \(l_c\) 变化实验(CD ×10³ ↓):
| 方法 | Left | Right | Up | Down | 平均 |
|---|---|---|---|---|---|
| Static | 0.841 | 0.842 | 0.815 | 0.813 | 0.828 |
| LPO | 0.791 | 0.787 | 0.796 | 0.743 | 0.779 |
| SfC-NeRF | 0.303 | 0.258 | 0.274 | 0.291 | 0.282 |
关键发现¶
- 质量损失的贡献最大——去掉后平均 CD 从 0.165 飙升至 0.503,说明质量信息是缩小解空间的关键约束
- 外观保持损失和训练策略缺一不可——只有损失没有训练策略效果差,说明优化过程中外部结构确实容易被破坏
- 空腔越大优化越难(从 0.081 到 0.262),这是因为需要从实心状态移除更多体积
- GO/LPO 等 baseline 甚至可能比 Static(不做任何优化)更差,说明朴素的视频拟合会破坏已学好的结构
- 对空腔位置偏差的检测效果很好(可视化显示 SfC-NeRF 能捕获空腔偏向的方向)
亮点与洞察¶
- 开创性的新任务定义:SfC 是一个之前从未被正式定义的问题——通过动态碰撞观测推断静态不可见结构。这是 NeRF 领域从"结构"走向"功能/属性"推断的重要一步
- 体积退火的巧妙类比:借鉴优化论中模拟退火的思想,通过 G2P-P2G 循环实现体积扩张来跳出局部最优,无需引入随机性
- 完善的 115 物体数据集:系统地覆盖了 5 种外部形状 × 多种空腔大小/位置/材料的组合,是严谨的科研范式
- 物理约束的关键作用:实验清晰地揭示了在没有物理约束的情况下,纯数据驱动方法完全无法解决 SfC 问题
局限与展望¶
- 假设物理属性(杨氏模量、泊松比、密度、质量)已知,实际场景中这些属性通常需要单独估计
- 目前只用合成数据(MLS-MPM 模拟器生成),真实碰撞视频中的材料建模误差和观测噪声可能导致性能下降
- 基于 PAC-NeRF 的体素表示效率较低,无法处理高分辨率场景
- 即使性能最好的 SfC-NeRF,对大空腔的重建精度仍有限(CD 0.262 vs 实心 0.081),说明 SfC 本质上的病态性使得精确重建极具挑战
- 未来可探索声学(如敲击声)、热成像等其他模态来辅助推断内部结构
相关工作与启发¶
- vs PAC-NeRF: 互补关系——PAC-NeRF 假设内部填满优化物理属性,SfC-NeRF 假设物理属性已知优化内部结构。未来可考虑联合优化
- vs LPO (Lagrangian Particle Optimization): LPO 也优化粒子场但目标是稀疏视图补全(外部结构),不针对内部结构,且缺乏外观保持和体积退火等关键组件
- vs GO (Grid Optimization): 朴素的体素优化在 SfC 场景下完全失败,说明物理约束和精心设计的训练策略是必要的
- 这个任务在工业无损检测(如超声波检测的替代/补充)和考古学(推断文物内部结构)中可能有应用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 全新任务定义,问题本身极具创新性和启发性
- 实验充分度: ⭐⭐⭐⭐⭐ 115个物体、多种变量(大小/位置/材料)、全面的消融
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义严谨,方法推导清晰,实验组织有条理
- 价值: ⭐⭐⭐⭐ 开创新方向但实际应用受限于物理属性已知的强假设
相关论文¶
- [CVPR 2025] Light3R-SfM: Towards Feed-forward Structure-from-Motion
- [CVPR 2025] Dense-SfM: Structure from Motion with Dense Consistent Matching
- [CVPR 2025] MeshArt: Generating Articulated Meshes with Structure-Guided Transformers
- [CVPR 2025] ColabSfM: Collaborative Structure-from-Motion by Point Cloud Registration
- [CVPR 2025] MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion