ArtFormer: Controllable Generation of Diverse 3D Articulated Objects¶
会议: CVPR 2025
arXiv: 2412.07237
代码: https://github.com/ShuYuMo2003/ArtFormer (有)
领域: 3D生成 / 关节物体建模
关键词: 关节物体、树结构参数化、Shape Prior、可控生成、文本/图像引导
一句话总结¶
提出ArtFormer框架,通过树结构参数化和条件扩散Shape Prior,从文本/图像描述生成高质量、多样化且运动学关系准确的3D关节物体,在生成质量和多样性上显著超越现有方法。
研究背景与动机¶
领域现状¶
领域现状:关节物体(多刚体通过关节相连)生成研究有限。NAP受限于预定义图结构,CAGE/SINGAPO采用检索方式限制多样性。
核心矛盾:质量vs灵活性(固定结构限多样性),几何质量vs运动学准确性(两者约束冲突)。
核心洞察:关节物体本质是树形结构 → 树位置编码捕捉层级关系 + Shape Prior保证几何质量 + Gumbel-Softmax扩展多样性。
解决思路¶
本文目标:### 整体框架 阶段1:Shape Prior预训练(VAE+SDF+条件扩散模型学习几何先验) 阶段2:Articulation Transformer(树位置编码+迭代解码逐层生成节点)
关键设计¶
- 树结构参数化:每节点存储几何属性(bbox \(b_i \in \mathbb{R}^6\), 潜在码 \(z_i \in \mathbb{R}^{768}\))。
方法详解¶
整体框架¶
阶段1:Shape Prior预训练(VAE+SDF+条件扩散模型学习几何先验) 阶段2:Articulation Transformer(树位置编码+迭代解码逐层生成节点)
关键设计¶
-
树结构参数化:每节点存储几何属性(bbox \(b_i \in \mathbb{R}^6\), 潜在码 \(z_i \in \mathbb{R}^{768}\)) + 运动学属性(关节轴 \(j_i \in \mathbb{R}^6\), 运动范围 \(l_i \in \mathbb{R}^4\)),总维度D=785
-
Shape Prior(Gumbel-Softmax采样):将几何编码分解为4个分量,通过4个独立编码本将潜在空间从4N扩展至N⁴,大幅提升多样性而不增加计算成本
-
树位置编码(TPE):绝对位置用双向GRU编码根-到-节点路径,相对位置串联路径节点编码。支持任意树形结构
-
迭代解码:逐轮为已有节点预测子节点,直到所有输出为终止令牌。捕捉部分间相互依赖
损失函数 / 训练策略¶
\(L_{trans} = \beta_o L_o + \beta_P L_P + L_a\)(终止分类 + 编码簿KL + 属性MSE)
实验关键数据¶
主实验¶
| 方法 | POR↓ | MMD↓ | COV↑ | DS↑ |
|---|---|---|---|---|
| NAP-128 | 0.805 | 0.3085 | 0.7021 | 0.13 |
| CAGE | 0.251 | 0.6064 | 0.5319 | 0.07 |
| Ours | 0.709 | 0.5213 | 0.5266 | 0.67 |
消融实验¶
| 配置 | POR↓ | MMD↓ | COV↑ |
|---|---|---|---|
| 全模型 | 0.709 | 0.5213 | 0.5266 |
| 移除TPE | 1.170% | 0.5000 | 0.5053 |
| 移除Shape Prior | 2.502% | 0.4574 | 0.7606 |
关键发现¶
- 多样性指标(DS=0.67)显著领先(CAGE仅0.07)
- TPE移除后POR增加65%,证明位置信息必要
- Shape Prior移除后所有指标大幅恶化
亮点与洞察¶
- 树结构参数化优雅简化关节物体表示
- Gumbel-Softmax在不增计算下扩展多样性空间(4N→N⁴)
- 树位置编码是关键创新,消融清晰证明
局限与展望¶
- 仅6类物体训练,部分类数量少
- 定量条件控制(旋转角度等)困难
- SDF多类训练泛化性下降
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 树位置编码+Shape Prior+Gumbel-Softmax组合
- 实验充分度: ⭐⭐⭐⭐ 消融细致,缺跨数据集验证
- 写作质量: ⭐⭐⭐⭐⭐ 图表清晰,逻辑严密
- 价值: ⭐⭐⭐⭐ 机器人/数字孪生应用潜力
相关论文¶
- [ACL 2026] XtraGPT: Context-Aware and Controllable Academic Paper Revision via Human-AI Collaboration
- [ACL 2025] Abstractive Snippet Generation
- [ACL 2025] ATGen: A Framework for Active Text Generation
- [ACL 2025] Personalized Text Generation with Contrastive Activation Steering
- [ACL 2025] Writing Like the Best: Exemplar-Based Expository Text Generation