PhysX-3D: Physical-Grounded 3D Asset Generation¶

会议: NeurIPS 2025
arXiv: 2507.12465
代码: 项目主页
领域: 3D视觉
关键词: 物理属性3D生成, 3D数据集, 物理标注, 铰接体建模, 具身AI

一句话总结¶

PhysX提出了首个端到端的物理属性驱动3D资产生成范式，包括PhysXNet（首个系统标注了绝对尺度、材料、功能可供性、运动学和功能描述五个维度的物理3D数据集，含26K+对象）和PhysXGen（双分支前馈生成框架，将物理知识注入预训练的3D结构空间中）。

研究背景与动机¶

近年来3D资产生成取得了巨大进展，但现有方法几乎完全聚焦于几何和纹理，忽视了物理属性。然而真实世界的物体天然具有丰富的物理和语义特征：

绝对尺度：物体的真实物理尺寸

材料：材料名称、杨氏模量、泊松比、密度

功能可供性（Affordance）：各部件被触摸/抓取的优先级

运动学：关节类型、运动范围、运动方向、父子部件关系

功能描述：基础/功能/运动描述文本

现有数据集的覆盖非常碎片化（见表1对比）： - PartNet-Mobility仅2.7K对象且只有运动学标注 - ABO有材料和尺寸但只有对象级标注（非部件级） - Objaverse规模大但无任何物理标注

这种物理属性的缺失严重阻碍了3D资产在仿真、机器人和具身AI中的实际应用。PhysX的核心动机是从上游数据标注到下游生成模型，建立完整的物理化3D资产流水线。

方法详解¶

整体框架¶

PhysX包含两个核心组件： - PhysXNet数据集：26K+物理3D对象 + PhysXNet-XL的600万程序化扩展 - PhysXGen生成模型：双分支前馈框架，基于预训练的TRELLIS 3D生成模型

关键设计¶

Human-in-the-Loop标注流水线：分为两个阶段：
- 初步数据获取：首先对每个部件进行Alpha合成渲染（目标部件红色，其他灰色），以获得最佳视觉提示并最小化遮挡干扰。然后使用GPT-4o进行自动标注，获取基础物理属性（材料、密度、部件名称、功能可供性、功能描述）。人工候选者检查并修正VLM输出。
- 运动学参数确定：对所有有约束运动的部件（非自由或刚性连接），计算子-父网格对的接触区域，进行平面拟合以获取运动轴候选方向，生成候选位置（对旋转关节额外用K-means确定旋转轴位置），最后由人工选择最佳候选并确定运动学参数。

在预处理中，对PartNet中过于细粒度的部件进行合并（面积≤0.2或面数≤100且面积≤0.06），并人工验证合并结果。运动学类型包括五种：A（自由）、B（棱柱/平移关节）、C（旋转关节）、D（铰关节）、E（刚性连接），以及组合类型CB。

PhysXGen双分支生成架构：包含两阶段：
- Physical 3D VAE：构建物理VAE编码器 \(\mathcal{E}_{phy}\) 和解码器 \(\mathcal{D}_{phy}\)，将物理属性（尺度 \(P_{dim} \in \mathbb{R}^{N \times 1}\)、可供性 \(P_{aff} \in \mathbb{R}^{N \times 1}\)、密度 \(P_\rho \in \mathbb{R}^{N \times 1}\)、运动学参数 \(P_{mov} \in \mathbb{R}^{N \times 11}\)）拼接为 \(P_{phy} \in \mathbb{R}^{N \times 14}\)，连同CLIP编码的功能描述 \(P_{sem} \in \mathbb{R}^{N \times 768 \times 3}\)，编码到物理潜空间 \(P_{plat} \in \mathbb{R}^{N \times 8}\)。结构分支使用预训练的DINOv2特征编码。关键是通过残差连接建立 \(\mathcal{D}_{phy}\) 到 \(\mathcal{D}_{aes}\) 的信息通路，利用物理-结构的相关性。
- 物理潜在生成：基于Transformer的扩散模型，使用条件流匹配（CFM）目标。物理分支有14个Transformer块（少于结构分支的24块以降低计算量）。结构分支通过可学习的skip-connection层向物理分支提供指导。损失为 \(\mathcal{L}_{diff} = \mathcal{L}_{aes} + \mathcal{L}_{phy}\)。
PhysXNet-XL程序化扩展：通过类内和跨类组合规则，从PhysXNet出发程序化生成600万+物理3D对象。类内组合覆盖柜子、桌子、瓶子等9类；跨类组合识别抽屉和门作为可灵活集成的模块化组件。确保结构和物理一致性。

损失函数 / 训练策略¶

VAE损失：

\[\mathcal{L}_{vae} = \mathcal{L}_{aes}^{color} + \mathcal{L}_{aes}^{geometry} + \mathcal{L}_{phy} + \mathcal{L}_{sem} + \mathcal{L}_{kl} + \mathcal{L}_{reg}\]

\(\mathcal{L}_{aes}^{color}\): L2 + LPIPS
\(\mathcal{L}_{aes}^{geometry}\): mask + normal + depth
\(\mathcal{L}_{phy}\)/\(\mathcal{L}_{sem}\): 归一化L2
AdamW优化器，lr=1e-4，8×A100 GPU
24K训练 / 1K验证 / 1K测试

实验关键数据¶

主实验¶

PhysXGen vs 基线方法：

方法	PSNR↑	CD↓	F-Score↑	绝对尺度↓	材料↑	可供性↑	运动COV↑	运动MMD↓	描述↑
TRELLIS	24.31	13.2	76.9	–	–	–	–	–	–
TRELLIS+PhysPre	24.31	13.2	76.9	13.21	8.63	7.23	0.24	0.12	6.55
PhysXGen	24.53	12.7	77.3	7.24	13.01	11.30	0.33	0.08	10.11

与GPT基线对比（TRELLIS+PartField+GPT-4o）：

方法	绝对尺度↓	材料↑	可供性↑	运动COV↑	运动MMD↓	描述↑
TRELLIS+PartField+GPT	8.81	7.95	6.73	0.09	0.24	14.31
PhysXGen	7.24	13.01	11.30	0.33	0.08	10.11

PhysXGen在绝对尺度、材料、运动学和可供性上分别提升24%、64%、28%和72%。

消融实验¶

双分支架构的效果：

Dep-VAE	Dep-Diff	PSNR↑	绝对尺度↓	材料↑	可供性↑	运动COV↑	描述↑
✗	✗	24.31	13.21	8.63	7.23	0.24	6.55
✗	✓	24.31	12.01	10.69	8.95	0.26	7.71
✓	✗	24.32	10.57	9.86	9.32	0.28	7.54
✓	✓	24.53	7.24	13.01	11.30	0.33	10.11

关键发现¶

物理-结构相关性是核心：联合建模两者后，不仅物理属性大幅提升，几何质量也有改善（CD从13.2降到12.7）
VAE和扩散模型中的双分支设计都不可或缺，缺少任一均会显著降低物理属性生成质量
GPT-4o在功能描述上更擅长（得益于语言能力），但在结构化物理属性上远不如端到端学习
绝对尺度预测面临长尾分布挑战（1-1000cm），线性和对数归一化都不理想
运动学是最有挑战性的属性，因为需要同时准确预测离散的部件层级关系和连续的运动参数

亮点与洞察¶

填补重要空白：首次系统定义并标注了3D物体的完整物理属性谱，对具身AI社区价值巨大
标注流水线的可扩展设计：GPT-4o + 人工校验的组合既高效又可靠，且可复用到新数据集
物理-结构相关性的利用很聪明：物理属性（如材料→密度→运动特性）本身就与几何形状相关，联合建模是自然且有效的
PhysXNet-XL的600万级程序化扩展为大规模物理3D数据提供了可行路径

局限与展望¶

物理属性生成可能产生空间不一致的伪影（如相邻区域材料/可供性不连续）
运动学参数的回归预测难以准确确定部件数量和父子层级关系
数据集受限于PartNet的室内/CAD模型分布，缺少户外和真实扫描数据
功能描述依赖CLIP的编码器，其不可逆性限制了embedding到文本的解码能力
仅使用了4种物理属性用于生成，未包含摩擦系数等更细粒度的物理量

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义物理属性3D生成问题，数据集贡献突出
实验充分度: ⭐⭐⭐⭐ 与多种基线对比，消融验证了核心设计，但测试集仅限于室内CAD模型
写作质量: ⭐⭐⭐⭐ 问题定义清晰，标注流水线描述详细
价值: ⭐⭐⭐⭐⭐ 数据集对具身AI和机器人社区有巨大推动作用，方向意义重大