ShapeFusion: A 3D Diffusion Model for Localized Shape Editing¶

会议: ECCV 2024
arXiv: 2403.19773
领域: 图像生成

一句话总结¶

提出一种基于掩码扩散训练策略的3D网格局部编辑方法ShapeFusion，通过在顶点空间直接操作实现完全局部化、可解释的3D形状编辑，无需潜在空间优化。

研究背景与动机¶

参数化3D模型（3DMM）在数字人、游戏、虚拟现实等领域广泛应用，传统方法基于PCA进行全局形状建模
核心痛点：PCA的正交性约束和全局分解特性导致无法实现局部、解耦的3D形状编辑，编辑某个区域会影响其他区域
现有方法（如SD、LED）试图在潜在空间中实现解耦，但潜在空间的因式分解无法保证3D空间的局部性，且导致重建性能下降
全局参数化模型不可解释，难以找到控制特定区域特征的潜在编码

方法详解¶

整体框架¶

ShapeFusion将局部形状建模描述为修补问题（inpainting），使用掩码训练策略让扩散过程仅在掩码区域局部作用。框架包含两个主要组件：

前向扩散过程：对输入网格的指定区域逐步添加噪声
去噪模块：预测被添加噪声的去噪版本

关键设计¶

1. 掩码前向扩散

定义二值掩码 $\mathbf{M} \in \mathbb{R}^{N \times 3}$ 来指定噪声添加区域
训练时掩码区域为随机选取的锚点 $\mathbf{x}_a$ 的 $k$-hop 测地线邻域
未掩码区域（包括锚点）保持不变，从设计上保证编辑的局部性

2. 基于网格卷积的层级去噪模块

引入顶点索引位置编码 $\mathbf{p}_i$，打破置换等变性，使网络学习顶点特有的先验
采用三层级层次化网格卷积：在不同分辨率的网格上进行消息传递，从粗到细递归更新特征
利用螺旋网格卷积（Spiral Convolution）定义邻域，支持拓扑保持的生成

3. 特征初始化

每个顶点 $i$ 的初始特征拼接为： $$\mathbf{f}_i^{(0)} = [\mathbf{x}_i \| \mathbf{m}_i \| \mathbf{p}_i \| \mathbf{c}_t]$$

其中 $\mathbf{x}_i$ 为3D坐标，$\mathbf{m}_i$ 为二值掩码，$\mathbf{p}_i$ 为位置编码，$\mathbf{c}_t$ 为时间步嵌入。

损失函数¶

采用标准的扩散模型去噪损失（重参数化形式）：

\[\mathcal{L}_t = \|\epsilon_t - \epsilon_\theta(\mathbf{x}, t, \mathbf{M})\|_2\]

其中 $\epsilon_t$ 为前向扩散过程中第 $t$ 步的噪声，$\mathbf{M}$ 为定义编辑区域的掩码。

实验关键数据¶

主实验¶

在MimicMe、UHM和STAR三个数据集上与基线方法进行定量比较，评估多样性（DIV）、FID和身份保持（ID）：

方法	MimicMe DIV↑	MimicMe FID↓	MimicMe ID↓	UHM DIV↑	UHM FID↓	UHM ID↓	STAR DIV↑	STAR FID↓	STAR ID↓
M-VAE	0.25	1.21	0.09	0.61	1.17	0.21	0.72	0.71	0.19
SD	0.24	7.81	0.84	0.53	8.04	0.36	0.65	6.94	0.34
LED	0.10	3.39	0.23	0.43	2.30	0.58	0.47	2.04	0.56
ShapeFusion	0.34	0.30	0.05	0.71	0.53	0.11	0.98	0.43	0.09

消融实验¶

在UHM测试集上评估不同锚点数量对重建性能的影响：

锚点数量	重建误差 (mm)	对比PCA	对比SD
50	~1.2	优于	优于
100	~0.7	优于	优于
200	0.38	优于PCA和SD	优于SD
500	~0.15	大幅优于	大幅优于

此外，ShapeFusion的推理速度约为3.2秒，而基线方法（SD、LED）需要约22秒（基于优化的拟合过程），速度提升约10倍。

关键发现¶

完全局部化编辑：从热力图可以确认，ShapeFusion是唯一能保证编辑完全局部化、不影响其他区域的方法
高多样性生成：M-VAE虽然能局部编辑，但生成区域几乎相同（自编码器倾向于重建输入），而ShapeFusion能生成大量多样化的变体
直接点操纵：无需优化过程，通过设置锚点位置即可直接生成局部变形网格
表情编辑泛化：可以泛化到训练数据中不存在的分布外表情（如冷笑）

亮点与洞察¶

将3D局部编辑建模为修补问题的思路非常巧妙，避免了在潜在空间中强制解耦的困难
掩码扩散训练策略设计简单但有效，从架构设计上就保证了局部性
层级网格卷积解决了远距离依赖和边界平滑两个关键问题
区域交换（region swapping）功能在美学医学领域有直接应用价值
作为自解码器使用时，200个锚点即可达到0.38mm的重建精度，展示了强大的形状先验学习能力

局限性¶

目前主要在固定拓扑的网格上验证，对非固定拓扑的推广需要进一步研究
在带姿态的空间（posed space）上的操作是不必要的，可通过姿态规范化步骤替代
对极细粒度的局部编辑（如皱纹级别）的能力未充分展示

评分¶

创新性: ⭐⭐⭐⭐ — 掩码扩散策略应用于3D局部编辑是新颖且自然的
实用性: ⭐⭐⭐⭐ — 直接点操纵和区域交换功能对3D建模师和医学领域有实际价值
实验充分性: ⭐⭐⭐⭐⭐ — 三个数据集、多种应用场景、定量定性全面评估
写作质量: ⭐⭐⭐⭐ — 逻辑清晰、图示丰富