跳转至

PhysX-3D: Physical-Grounded 3D Asset Generation

会议: NeurIPS 2025
arXiv: 2507.12465
代码: 项目主页
领域: 3D视觉
关键词: 物理属性3D生成, 3D数据集, 物理标注, 铰接体建模, 具身AI

一句话总结

PhysX提出了首个端到端的物理属性驱动3D资产生成范式,包括PhysXNet(首个系统标注了绝对尺度、材料、功能可供性、运动学和功能描述五个维度的物理3D数据集,含26K+对象)和PhysXGen(双分支前馈生成框架,将物理知识注入预训练的3D结构空间中)。

研究背景与动机

近年来3D资产生成取得了巨大进展,但现有方法几乎完全聚焦于几何和纹理,忽视了物理属性。然而真实世界的物体天然具有丰富的物理和语义特征:

绝对尺度:物体的真实物理尺寸

材料:材料名称、杨氏模量、泊松比、密度

功能可供性(Affordance):各部件被触摸/抓取的优先级

运动学:关节类型、运动范围、运动方向、父子部件关系

功能描述:基础/功能/运动描述文本

现有数据集的覆盖非常碎片化(见表1对比): - PartNet-Mobility仅2.7K对象且只有运动学标注 - ABO有材料和尺寸但只有对象级标注(非部件级) - Objaverse规模大但无任何物理标注

这种物理属性的缺失严重阻碍了3D资产在仿真、机器人和具身AI中的实际应用。PhysX的核心动机是从上游数据标注到下游生成模型,建立完整的物理化3D资产流水线

方法详解

整体框架

PhysX包含两个核心组件: - PhysXNet数据集:26K+物理3D对象 + PhysXNet-XL的600万程序化扩展 - PhysXGen生成模型:双分支前馈框架,基于预训练的TRELLIS 3D生成模型

关键设计

  1. Human-in-the-Loop标注流水线:分为两个阶段:

    • 初步数据获取:首先对每个部件进行Alpha合成渲染(目标部件红色,其他灰色),以获得最佳视觉提示并最小化遮挡干扰。然后使用GPT-4o进行自动标注,获取基础物理属性(材料、密度、部件名称、功能可供性、功能描述)。人工候选者检查并修正VLM输出。
    • 运动学参数确定:对所有有约束运动的部件(非自由或刚性连接),计算子-父网格对的接触区域,进行平面拟合以获取运动轴候选方向,生成候选位置(对旋转关节额外用K-means确定旋转轴位置),最后由人工选择最佳候选并确定运动学参数。

在预处理中,对PartNet中过于细粒度的部件进行合并(面积≤0.2或面数≤100且面积≤0.06),并人工验证合并结果。运动学类型包括五种:A(自由)、B(棱柱/平移关节)、C(旋转关节)、D(铰关节)、E(刚性连接),以及组合类型CB。

  1. PhysXGen双分支生成架构:包含两阶段:

    • Physical 3D VAE:构建物理VAE编码器 \(\mathcal{E}_{phy}\) 和解码器 \(\mathcal{D}_{phy}\),将物理属性(尺度 \(P_{dim} \in \mathbb{R}^{N \times 1}\)、可供性 \(P_{aff} \in \mathbb{R}^{N \times 1}\)、密度 \(P_\rho \in \mathbb{R}^{N \times 1}\)、运动学参数 \(P_{mov} \in \mathbb{R}^{N \times 11}\))拼接为 \(P_{phy} \in \mathbb{R}^{N \times 14}\),连同CLIP编码的功能描述 \(P_{sem} \in \mathbb{R}^{N \times 768 \times 3}\),编码到物理潜空间 \(P_{plat} \in \mathbb{R}^{N \times 8}\)。结构分支使用预训练的DINOv2特征编码。关键是通过残差连接建立 \(\mathcal{D}_{phy}\)\(\mathcal{D}_{aes}\) 的信息通路,利用物理-结构的相关性。

    • 物理潜在生成:基于Transformer的扩散模型,使用条件流匹配(CFM)目标。物理分支有14个Transformer块(少于结构分支的24块以降低计算量)。结构分支通过可学习的skip-connection层向物理分支提供指导。损失为 \(\mathcal{L}_{diff} = \mathcal{L}_{aes} + \mathcal{L}_{phy}\)

  2. PhysXNet-XL程序化扩展:通过类内和跨类组合规则,从PhysXNet出发程序化生成600万+物理3D对象。类内组合覆盖柜子、桌子、瓶子等9类;跨类组合识别抽屉和门作为可灵活集成的模块化组件。确保结构和物理一致性。

损失函数 / 训练策略

VAE损失:

\[\mathcal{L}_{vae} = \mathcal{L}_{aes}^{color} + \mathcal{L}_{aes}^{geometry} + \mathcal{L}_{phy} + \mathcal{L}_{sem} + \mathcal{L}_{kl} + \mathcal{L}_{reg}\]
  • \(\mathcal{L}_{aes}^{color}\): L2 + LPIPS
  • \(\mathcal{L}_{aes}^{geometry}\): mask + normal + depth
  • \(\mathcal{L}_{phy}\)/\(\mathcal{L}_{sem}\): 归一化L2
  • AdamW优化器,lr=1e-4,8×A100 GPU
  • 24K训练 / 1K验证 / 1K测试

实验关键数据

主实验

PhysXGen vs 基线方法:

方法 PSNR↑ CD↓ F-Score↑ 绝对尺度↓ 材料↑ 可供性↑ 运动COV↑ 运动MMD↓ 描述↑
TRELLIS 24.31 13.2 76.9
TRELLIS+PhysPre 24.31 13.2 76.9 13.21 8.63 7.23 0.24 0.12 6.55
PhysXGen 24.53 12.7 77.3 7.24 13.01 11.30 0.33 0.08 10.11

与GPT基线对比(TRELLIS+PartField+GPT-4o):

方法 绝对尺度↓ 材料↑ 可供性↑ 运动COV↑ 运动MMD↓ 描述↑
TRELLIS+PartField+GPT 8.81 7.95 6.73 0.09 0.24 14.31
PhysXGen 7.24 13.01 11.30 0.33 0.08 10.11

PhysXGen在绝对尺度、材料、运动学和可供性上分别提升24%、64%、28%和72%。

消融实验

双分支架构的效果:

Dep-VAE Dep-Diff PSNR↑ 绝对尺度↓ 材料↑ 可供性↑ 运动COV↑ 描述↑
24.31 13.21 8.63 7.23 0.24 6.55
24.31 12.01 10.69 8.95 0.26 7.71
24.32 10.57 9.86 9.32 0.28 7.54
24.53 7.24 13.01 11.30 0.33 10.11

关键发现

  • 物理-结构相关性是核心:联合建模两者后,不仅物理属性大幅提升,几何质量也有改善(CD从13.2降到12.7)
  • VAE和扩散模型中的双分支设计都不可或缺,缺少任一均会显著降低物理属性生成质量
  • GPT-4o在功能描述上更擅长(得益于语言能力),但在结构化物理属性上远不如端到端学习
  • 绝对尺度预测面临长尾分布挑战(1-1000cm),线性和对数归一化都不理想
  • 运动学是最有挑战性的属性,因为需要同时准确预测离散的部件层级关系和连续的运动参数

亮点与洞察

  • 填补重要空白:首次系统定义并标注了3D物体的完整物理属性谱,对具身AI社区价值巨大
  • 标注流水线的可扩展设计:GPT-4o + 人工校验的组合既高效又可靠,且可复用到新数据集
  • 物理-结构相关性的利用很聪明:物理属性(如材料→密度→运动特性)本身就与几何形状相关,联合建模是自然且有效的
  • PhysXNet-XL的600万级程序化扩展为大规模物理3D数据提供了可行路径

局限与展望

  • 物理属性生成可能产生空间不一致的伪影(如相邻区域材料/可供性不连续)
  • 运动学参数的回归预测难以准确确定部件数量和父子层级关系
  • 数据集受限于PartNet的室内/CAD模型分布,缺少户外和真实扫描数据
  • 功能描述依赖CLIP的编码器,其不可逆性限制了embedding到文本的解码能力
  • 仅使用了4种物理属性用于生成,未包含摩擦系数等更细粒度的物理量

相关工作与启发

  • TRELLIS是结构化3D生成的基础,PhysXGen通过在其潜空间上叠加物理分支来扩展
  • 与PartNet-Mobility相比,PhysXNet在标注维度和规模上都有质的飞跃
  • 标注流水线中的"部件级视觉隔离+VLM标注"策略可推广到其他需要细粒度标注的场景
  • 对机器人操作和物理仿真的下游应用有直接价值

评分

  • 新颖性: ⭐⭐⭐⭐ 首次定义物理属性3D生成问题,数据集贡献突出
  • 实验充分度: ⭐⭐⭐⭐ 与多种基线对比,消融验证了核心设计,但测试集仅限于室内CAD模型
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,标注流水线描述详细
  • 价值: ⭐⭐⭐⭐⭐ 数据集对具身AI和机器人社区有巨大推动作用,方向意义重大

相关论文