Structure from Collision¶

会议: CVPR 2025
arXiv: 2505.21335
代码: 无（项目页面: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/sfc/ ）
领域: 3D视觉 / 神经3D表示
关键词: 内部结构估计, NeRF, 碰撞, 物理约束, 逆向工程

一句话总结¶

提出全新任务"碰撞中的结构重建"（SfC），旨在通过观察物体碰撞时的外观变化来推断其不可见的内部结构（如空腔），并设计 SfC-NeRF 模型在物理约束、外观保持约束、关键帧约束和体积退火策略下优化内部密度场，在包含 115 个不同结构/材料的物体数据集上验证了方法的有效性。

研究背景与动机¶

领域现状：NeRF 和 3DGS 等神经3D表示技术已经能从多视角图像精确估计物体的3D结构。物理增强的变体（如 PAC-NeRF）进一步将可微物理模拟整合进 NeRF，支持对弹性材料、流体等连续体材料的动态模拟和系统辨识（如从视频序列中识别杨氏模量等物理属性）。

现有痛点：所有现有方法都只能估计可见的外部结构，对于隐藏在表面背后的不可见内部结构（如空腔、中空区域）无能为力。即使两个物体的内部结构完全不同，只要外观相同，静态 NeRF 就会学到完全一样的3D表示。这在虚拟/增强现实中的物体复现、机器人抓取力控制等应用中会导致严重问题。

核心矛盾：内部结构不可直接观测，但它通过影响物体的物理行为（如碰撞变形）间接表现在外部——然而这是一个严重的不适定问题，因为多种内部结构都可能产生相似的碰撞行为。

本文目标：定义 SfC 任务——通过碰撞视频中的外观变化来推断物体的内部结构（包括空腔的形状、位置和大小）。

切入角度：碰撞时物体的变形模式受内部结构影响（如空腔位置不同导致凹陷方向不同）。如果假设材料物理属性已知（如杨氏模量、泊松比、密度和质量），就可以将SfC视为PAC-NeRF的互补问题——PAC-NeRF假设内部填满优化物理属性，SfC则假设物理属性已知优化内部结构。

核心 idea：在已知物理属性下，通过视频序列优化体素 NeRF 的内部体积密度 \(\sigma^{G'}(t_0)\)，使物理模拟的碰撞变形与观测视频一致，同时保持外部结构不变。

方法详解¶

整体框架¶

SfC-NeRF 采用两步优化。第一步：用视频第一帧多视角图像训练标准体素 NeRF，学到填满的物体外部结构（此时内部是实心的）。第二步：固定外部结构，通过整个碰撞视频序列优化内部体积密度。第二步的 pipeline：(1) 从体素网格 \(\mathcal{F}^{G'}(t_0)\) 通过 G2P 转换得到粒子集 \(\mathcal{P}^P(t_0)\)；(2) 用可微材料点方法（DiffMPM）模拟物理碰撞，推进粒子到各个时间步；(3) 通过 P2G 转换回网格并渲染各帧图像；(4) 比较渲染与真实帧，反传梯度更新 \(\sigma^{G'}(t_0)\)。

关键设计¶

物理约束（材料属性 + 质量损失）:
- 功能：利用已知物理属性缩小不适定问题的解空间
- 核心思路：材料属性（杨氏模量 \(\hat{E}\)、泊松比 \(\hat{\nu}\)、密度 \(\hat{\rho}\)）在构建 DiffMPM 时显式编码。质量约束通过损失函数 \(\mathcal{L}_{mass} = \|\log_{10}(m) - \log_{10}(\hat{m})\|_2^2\) 实现，其中 \(m = \sum_{p} \hat{\rho} \cdot (\frac{\Delta x}{2})^3 \cdot \alpha_p^P\)，即各粒子质量之和。用对数尺度优先匹配数量级
- 设计动机：内部结构与物理属性（如弹性）存在互依赖关系——空心和软材料都能产生高弹性。通过固定物理属性，将自由度限制到内部结构上
外观保持约束（损失 + 训练策略）:
- 功能：在优化内部结构时保持第一步学到的外部表面不被破坏
- 核心思路：外观保持损失：额外的像素保持损失 \(\mathcal{L}_{pixel_0}\) 强化第一帧的重建质量，深度保持损失 \(\mathcal{L}_{depth_0}\) 通过比较当前模型和优化前模型的深度图差分（水平+垂直）来保持3D表面形状。用差分而非原始深度以缓解深度估计误差。外观保持训练：每次完成视频序列优化后，重新用第一帧重新优化 \(\mathcal{F}^{G'}(t_0)\)，修复可能受损的外部结构
- 设计动机：直接优化内部密度场理论上不应改变不透明物体的外观，但实际中由于梯度传播和优化动态，外部结构会被意外修改
体积退火（Volume Annealing）:
- 功能：通过反复缩小和扩大体积来搜索全局最优，避免陷入局部最优
- 核心思路：优化从实心状态开始（第一步结果），通过物理和质量约束减小体积（创造空腔）。当体积缩减方向错误时可能陷入局部最优。体积退火通过交替执行体积缩减（正常优化）和体积扩张（G2P→P2G 转换并替换 \(\mathcal{F}^{G'}\)）实现类似模拟退火的效果
- 设计动机：SfC 存在多个可行解（同一质量约束下空腔可以在不同位置），从实心开始的优化容易困在第一个找到的解。退火策略提供了跳出局部最优的机制

损失函数 / 训练策略¶

总损失 \(\mathcal{L}_{full} = \mathcal{L}_{pixel} + \lambda_{mass}\mathcal{L}_{mass} + \lambda_{pres}(\mathcal{L}_{pixel_0} + w_{depth}\mathcal{L}_{depth_0}) + \lambda_{key}\mathcal{L}_{pixel_k}\)。其中关键帧损失 \(\mathcal{L}_{pixel_k}\) 对碰撞刚发生后的帧给予额外权重（因为此帧最能反映内部结构引起的形变差异）。还使用了视频抠图生成的背景掩码来排除静态背景，集中计算在目标物体上。

实验关键数据¶

主实验¶

空腔大小 \(s_c\) 变化实验（Chamfer Distance ×10³ ↓，5种外部形状的平均值）：

方法	\(s_c\)=0 (实心)	\(s_c\)=(1/2)³	\(s_c\)=(2/3)³	\(s_c\)=(3/4)³	平均
Static (仅第一帧)	0.093	0.294	0.920	1.574	0.720
GO	0.091	0.301	0.941	1.586	0.730
LPO	0.092	0.284	0.841	1.406	0.656
SfC-NeRF	0.081	0.122	0.195	0.262	0.165

消融实验¶

配置	\(s_c\)=(2/3)³ CD	平均 CD	说明
SfC-NeRF (full)	0.195	0.165	完整模型
w/o mass loss	0.550	0.503	去掉质量约束，性能大幅下降
w/o AP loss	0.898	0.688	去掉外观保持损失
w/o AP training	0.332	0.335	去掉外观保持训练
w/o keyframe	0.211	0.186	去掉关键帧约束
w/o volume annealing	0.370	0.316	去掉体积退火

空腔位置 \(l_c\) 变化实验（CD ×10³ ↓）：

方法	Left	Right	Up	Down	平均
Static	0.841	0.842	0.815	0.813	0.828
LPO	0.791	0.787	0.796	0.743	0.779
SfC-NeRF	0.303	0.258	0.274	0.291	0.282

关键发现¶

质量损失的贡献最大——去掉后平均 CD 从 0.165 飙升至 0.503，说明质量信息是缩小解空间的关键约束
外观保持损失和训练策略缺一不可——只有损失没有训练策略效果差，说明优化过程中外部结构确实容易被破坏
空腔越大优化越难（从 0.081 到 0.262），这是因为需要从实心状态移除更多体积
GO/LPO 等 baseline 甚至可能比 Static（不做任何优化）更差，说明朴素的视频拟合会破坏已学好的结构
对空腔位置偏差的检测效果很好（可视化显示 SfC-NeRF 能捕获空腔偏向的方向）

亮点与洞察¶

开创性的新任务定义：SfC 是一个之前从未被正式定义的问题——通过动态碰撞观测推断静态不可见结构。这是 NeRF 领域从"结构"走向"功能/属性"推断的重要一步
体积退火的巧妙类比：借鉴优化论中模拟退火的思想，通过 G2P-P2G 循环实现体积扩张来跳出局部最优，无需引入随机性
完善的 115 物体数据集：系统地覆盖了 5 种外部形状 × 多种空腔大小/位置/材料的组合，是严谨的科研范式
物理约束的关键作用：实验清晰地揭示了在没有物理约束的情况下，纯数据驱动方法完全无法解决 SfC 问题

局限与展望¶

假设物理属性（杨氏模量、泊松比、密度、质量）已知，实际场景中这些属性通常需要单独估计
目前只用合成数据（MLS-MPM 模拟器生成），真实碰撞视频中的材料建模误差和观测噪声可能导致性能下降
基于 PAC-NeRF 的体素表示效率较低，无法处理高分辨率场景
即使性能最好的 SfC-NeRF，对大空腔的重建精度仍有限（CD 0.262 vs 实心 0.081），说明 SfC 本质上的病态性使得精确重建极具挑战
未来可探索声学（如敲击声）、热成像等其他模态来辅助推断内部结构

评分¶

新颖性: ⭐⭐⭐⭐⭐ 全新任务定义，问题本身极具创新性和启发性
实验充分度: ⭐⭐⭐⭐⭐ 115个物体、多种变量（大小/位置/材料）、全面的消融
写作质量: ⭐⭐⭐⭐⭐ 问题定义严谨，方法推导清晰，实验组织有条理
价值: ⭐⭐⭐⭐ 开创新方向但实际应用受限于物理属性已知的强假设