Guiding Diffusion-Based Articulated Object Generation by Partial Point Cloud Alignment and Physical Plausibility Constraints¶
会议: ICCV 2025
arXiv: 2508.00558
代码: 未公开
领域: 3D视觉
关键词: 铰接物体生成, 扩散模型, 点云对齐, 物理约束, SDF
一句话总结¶
提出 PhysNAP,通过点云对齐损失和基于SDF的物理合理性约束(部件穿透+关节移动)引导预训练扩散模型 NAP 的逆扩散过程,实现类别感知的铰接物体生成,在对齐精度和物理合理性上显著优于无引导基线。
研究背景与动机¶
铰接物体(如抽屉、电器、笔记本电脑)在日常环境中极为常见,它们的数字孪生生成和重建对虚拟现实和机器人应用非常重要。
现有方法的局限:
NAP(基线方法):使用DDPM生成铰接图,可表示部件形状(SDF)、关节参数和图结构,但是无条件无引导的生成,无法与观测数据对齐
CAGE/SINGAPO:需要铰接图结构(节点数、连接关系)作为输入先验,限制了通用性
MIDGaRD:分阶段生成图结构和形状,阻止了损失通过形状反向传播到图结构
PhysPart:最接近的工作,但假设已知完整底座点云且仅考虑底座-单个部件间碰撞
PhysNAP 的创新定位: - 不假设已知铰接图结构(部件数量和连接未知) - 使用部分点云(而非完整点云)作为训练自由引导 - 评估所有部件对之间的穿透(而非仅底座-单部件) - 首个同时具备类别感知、点云对齐和物理合理性引导的铰接物体扩散模型
方法详解¶
整体框架¶
PhysNAP 基于 NAP 扩展,核心包含三部分: 1. 类别条件化的铰接图扩散模型(训练阶段) 2. 损失引导的逆扩散采样(推理阶段) 3. 三种引导损失设计(点云对齐 + 穿透 + 移动性)
铰接图表示¶
每个铰接物体表示为最多 \(K=8\) 个节点的图: - 节点属性:存在指示 \(o_i\)、位姿 \(\boldsymbol{T}_{gi} \in SE(3)\)、包围盒 \(\boldsymbol{b}_i \in \mathbb{R}^3\)、形状隐码 \(\boldsymbol{s}_i \in \mathbb{R}^{128}\) - 边属性:存在指示 \(c_{i,j} \in \{-1,0,1\}\)、Plücker 坐标描述铰接轴、关节范围
形状通过预训练的神经SDF解码器表示,可通过 Marching Cubes 提取网格。
类别感知生成¶
在 NAP 的 AGNN(注意力图神经网络)中添加可学习的类别嵌入,加到节点和边嵌入上,然后用带类别标注的数据重新训练。
损失引导扩散¶
利用 loss-guided diffusion 框架,在逆扩散过程的最后 \(n_g=500\) 步添加引导梯度:
点云对齐损失 \(\ell_{\text{pc}}\)¶
给定部分点云 \(\boldsymbol{P} \in \mathbb{R}^{n_p \times 3}\),通过预测的SDF评估每个点到最近部件的距离。由于点-部件关联未知,使用软对应(类似EM):
最终 \(\ell_{\text{pc}} = \sum_j \sum_i \alpha_{i,j} d(\boldsymbol{P}_j, i)^2\),温度参数 \(\tau=1000\)。
穿透损失 \(\ell_{\text{pen}}\)¶
计算所有部件对之间的包围盒交集,在交集区域采样3D网格点(目标 \(N^*=1000\)),评估SDF穿透误差:
移动性损失 \(\ell_{\text{mob}}\)¶
在预测的关节极限内随机采样铰接状态,通过螺旋变换计算部件间相对位姿,评估运动状态下的穿透误差。仅评估相邻部件之间的碰撞。
实验¶
实验设置¶
- 数据集:PartNet-Mobility,包含多类别铰接物体
- 评估指标:点云对齐(\(E_{\text{pc}}\), \(D_{\text{pc}}\))、穿透(\(E_{\text{pen}}\))、移动性(\(E_{\text{mob}}\))、生成质量(MMD, 1-NNA)
- 测试集:30个随机物体模型,每个1000个采样点
主实验结果¶
| 类别感知 | 引导变体 | \(E_{\text{pc}}\) | \(D_{\text{pc}}\) | \(E_{\text{pen}}\) | \(E_{\text{mob}}\) | MMD | 1-NNA |
|---|---|---|---|---|---|---|---|
| ✗ | pc+pen+mob | 0.0024 | 0.0705 | 0.0000 | 0.0003 | 0.1435 | 0.9547 |
| ✗ | pc | 0.0006 | 0.0435 | 0.0018 | 0.0031 | 0.1540 | 0.9666 |
| ✗ | uncond (NAP) | 0.0564 | 0.2063 | 0.0035 | 0.0033 | 0.0915 | 0.9440 |
| ✓ | pc+pen+mob | 0.0012 | 0.0483 | 0.0000 | 0.0003 | 0.1970 | 0.9774 |
| ✓ | pc | 0.0004 | 0.0301 | 0.0079 | 0.0059 | 0.2162 | 0.9817 |
| ✓ | uncond | 0.0076 | 0.0974 | 0.0019 | 0.0027 | 0.1687 | 0.9709 |
消融实验¶
| 消融设置 | 关键发现 |
|---|---|
| 引导步数 \(n_g\) | 500步与1000步效果相似,500步计算效率更高 |
| 权重 \(w_{\text{pen}}\) | 权重增大 → 穿透减少但生成质量下降,存在trade-off |
| 仅pc vs pc+pen+mob | 加入物理约束后对齐略降但物理合理性大幅提升 |
| 类别感知 vs 无感知 | 类别信息提升对齐精度但降低多样性(1-NNA升高) |
关键发现¶
- 引导有效性:所有引导变体在对应指标上均优于无引导基线(\(E_{\text{pc}}\) 从0.0564降至0.0006)
- Trade-off存在:引导目标之间存在权衡——pc引导损害物理合理性,pen+mob引导损害点云对齐
- 类别条件化:提供类别信息改善对齐但牺牲生成多样性
- 运行时间:完整引导下每个样本约2分钟(Nvidia A40)
亮点与洞察¶
- Training-free guidance 的优雅应用:无需修改预训练模型,仅在采样时添加梯度引导,实现灵活的条件生成
- SDF的双重利用:SDF既用于形状表示又用于物理约束计算(穿透检测),设计紧凑
- 软对应机制:通过可微的软分配解决未知点-部件关联,使损失对节点存在性也可微
局限性¶
- 引导过程增加推理时间(~2分钟/样本)
- 点云对齐与物理合理性之间的trade-off难以完全消除
- 类别感知模型降低了生成多样性
- 仅在PartNet-Mobility数据集上验证,泛化能力未知
相关工作¶
- 铰接物体生成:NAP, CAGE, SINGAPO, MIDGaRD, PhysPart
- 损失引导扩散:DPS, Loss-Guided Diffusion
- SDF表示:DeepSDF, 铰接SDF (A-SDF)
评分¶
- 新颖性:⭐⭐⭐⭐ — 首次将物理合理性约束整合到铰接物体扩散生成中
- 技术深度:⭐⭐⭐⭐ — SDF穿透检测和软对应设计精巧
- 实验完整性:⭐⭐⭐ — 与消融比较充分,但缺乏与同类方法的直接对比
- 实用价值:⭐⭐⭐ — 应用场景明确(机器人、VR/AR),但推理速度待优化
相关论文¶
- [ICCV 2025] REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment
- [ICCV 2025] Efficient Spiking Point Mamba for Point Cloud Analysis
- [ICCV 2025] Blended Point Cloud Diffusion for Localized Text-guided Shape Editing
- [ICCV 2025] Image-Guided Shape-from-Template Using Mesh Inextensibility Constraints
- [ICCV 2025] Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models