ShapeFusion: A 3D Diffusion Model for Localized Shape Editing¶
会议: ECCV 2024
arXiv: 2403.19773
领域: 图像生成
一句话总结¶
提出一种基于掩码扩散训练策略的3D网格局部编辑方法ShapeFusion,通过在顶点空间直接操作实现完全局部化、可解释的3D形状编辑,无需潜在空间优化。
研究背景与动机¶
- 参数化3D模型(3DMM)在数字人、游戏、虚拟现实等领域广泛应用,传统方法基于PCA进行全局形状建模
- 核心痛点:PCA的正交性约束和全局分解特性导致无法实现局部、解耦的3D形状编辑,编辑某个区域会影响其他区域
- 现有方法(如SD、LED)试图在潜在空间中实现解耦,但潜在空间的因式分解无法保证3D空间的局部性,且导致重建性能下降
- 全局参数化模型不可解释,难以找到控制特定区域特征的潜在编码
方法详解¶
整体框架¶
ShapeFusion将局部形状建模描述为修补问题(inpainting),使用掩码训练策略让扩散过程仅在掩码区域局部作用。框架包含两个主要组件:
- 前向扩散过程:对输入网格的指定区域逐步添加噪声
- 去噪模块:预测被添加噪声的去噪版本
关键设计¶
1. 掩码前向扩散
- 定义二值掩码 \(\mathbf{M} \in \mathbb{R}^{N \times 3}\) 来指定噪声添加区域
- 训练时掩码区域为随机选取的锚点 \(\mathbf{x}_a\) 的 \(k\)-hop 测地线邻域
- 未掩码区域(包括锚点)保持不变,从设计上保证编辑的局部性
2. 基于网格卷积的层级去噪模块
- 引入顶点索引位置编码 \(\mathbf{p}_i\),打破置换等变性,使网络学习顶点特有的先验
- 采用三层级层次化网格卷积:在不同分辨率的网格上进行消息传递,从粗到细递归更新特征
- 利用螺旋网格卷积(Spiral Convolution)定义邻域,支持拓扑保持的生成
3. 特征初始化
每个顶点 \(i\) 的初始特征拼接为: $\(\mathbf{f}_i^{(0)} = [\mathbf{x}_i \| \mathbf{m}_i \| \mathbf{p}_i \| \mathbf{c}_t]\)$
其中 \(\mathbf{x}_i\) 为3D坐标,\(\mathbf{m}_i\) 为二值掩码,\(\mathbf{p}_i\) 为位置编码,\(\mathbf{c}_t\) 为时间步嵌入。
损失函数¶
采用标准的扩散模型去噪损失(重参数化形式):
\[\mathcal{L}_t = \|\epsilon_t - \epsilon_\theta(\mathbf{x}, t, \mathbf{M})\|_2\]
其中 \(\epsilon_t\) 为前向扩散过程中第 \(t\) 步的噪声,\(\mathbf{M}\) 为定义编辑区域的掩码。
实验关键数据¶
主实验¶
在MimicMe、UHM和STAR三个数据集上与基线方法进行定量比较,评估多样性(DIV)、FID和身份保持(ID):
| 方法 | MimicMe DIV↑ | MimicMe FID↓ | MimicMe ID↓ | UHM DIV↑ | UHM FID↓ | UHM ID↓ | STAR DIV↑ | STAR FID↓ | STAR ID↓ |
|---|---|---|---|---|---|---|---|---|---|
| M-VAE | 0.25 | 1.21 | 0.09 | 0.61 | 1.17 | 0.21 | 0.72 | 0.71 | 0.19 |
| SD | 0.24 | 7.81 | 0.84 | 0.53 | 8.04 | 0.36 | 0.65 | 6.94 | 0.34 |
| LED | 0.10 | 3.39 | 0.23 | 0.43 | 2.30 | 0.58 | 0.47 | 2.04 | 0.56 |
| ShapeFusion | 0.34 | 0.30 | 0.05 | 0.71 | 0.53 | 0.11 | 0.98 | 0.43 | 0.09 |
消融实验¶
在UHM测试集上评估不同锚点数量对重建性能的影响:
| 锚点数量 | 重建误差 (mm) | 对比PCA | 对比SD |
|---|---|---|---|
| 50 | ~1.2 | 优于 | 优于 |
| 100 | ~0.7 | 优于 | 优于 |
| 200 | 0.38 | 优于PCA和SD | 优于SD |
| 500 | ~0.15 | 大幅优于 | 大幅优于 |
此外,ShapeFusion的推理速度约为3.2秒,而基线方法(SD、LED)需要约22秒(基于优化的拟合过程),速度提升约10倍。
关键发现¶
- 完全局部化编辑:从热力图可以确认,ShapeFusion是唯一能保证编辑完全局部化、不影响其他区域的方法
- 高多样性生成:M-VAE虽然能局部编辑,但生成区域几乎相同(自编码器倾向于重建输入),而ShapeFusion能生成大量多样化的变体
- 直接点操纵:无需优化过程,通过设置锚点位置即可直接生成局部变形网格
- 表情编辑泛化:可以泛化到训练数据中不存在的分布外表情(如冷笑)
亮点与洞察¶
- 将3D局部编辑建模为修补问题的思路非常巧妙,避免了在潜在空间中强制解耦的困难
- 掩码扩散训练策略设计简单但有效,从架构设计上就保证了局部性
- 层级网格卷积解决了远距离依赖和边界平滑两个关键问题
- 区域交换(region swapping)功能在美学医学领域有直接应用价值
- 作为自解码器使用时,200个锚点即可达到0.38mm的重建精度,展示了强大的形状先验学习能力
局限性¶
- 目前主要在固定拓扑的网格上验证,对非固定拓扑的推广需要进一步研究
- 在带姿态的空间(posed space)上的操作是不必要的,可通过姿态规范化步骤替代
- 对极细粒度的局部编辑(如皱纹级别)的能力未充分展示
评分¶
- 创新性: ⭐⭐⭐⭐ — 掩码扩散策略应用于3D局部编辑是新颖且自然的
- 实用性: ⭐⭐⭐⭐ — 直接点操纵和区域交换功能对3D建模师和医学领域有实际价值
- 实验充分性: ⭐⭐⭐⭐⭐ — 三个数据集、多种应用场景、定量定性全面评估
- 写作质量: ⭐⭐⭐⭐ — 逻辑清晰、图示丰富
相关论文¶
- [ECCV 2024] NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation
- [ECCV 2024] NL2Contact: Natural Language Guided 3D Hand-Object Contact Modeling with Diffusion Model
- [ECCV 2024] Lazy Diffusion Transformer for Interactive Image Editing
- [ECCV 2024] SMooDi: Stylized Motion Diffusion Model
- [ECCV 2024] ZigMa: A DiT-style Zigzag Mamba Diffusion Model