跳转至

Synchronous Diffusion for Unsupervised Smooth Non-Rigid 3D Shape Matching

会议: ECCV 2024
arXiv: 2407.08244
代码: 无
领域: 3D视觉 / 形状匹配
关键词: 非刚性3D形状匹配, 同步扩散, 功能映射, 平滑正则化, 无监督学习

一句话总结

提出同步扩散正则化方法用于无监督非刚性3D形状匹配,核心思想是"在两个形状上同步地扩散同一函数应产生一致输出",通过这一简单而高效的正则化可以显著提升现有深度功能映射方法的匹配平滑性,在FAUST、SCAPE、TOPKIDS等多个数据集上达到SOTA。

研究背景与动机

领域现状:非刚性3D形状匹配(即在两个发生非刚性变形的3D形状之间找到逐点对应关系)是计算机视觉和图形学的基础问题,在纹理迁移、姿态转移、统计形状分析等众多任务中起关键作用。近年来基于功能映射(Functional Map)框架的深度学习方法取得了巨大进步,通过在低频谱域中学习映射关系来高效建立对应关系。

现有痛点:深度功能映射方法在谱域(低频)进行匹配,然后转换为空间域的逐点对应。这个过程中存在一个核心缺陷:谱域的低频映射无法约束高频对应关系,导致得到的逐点对应在空间上不平滑——相邻顶点可能被匹配到对方形状上相隔很远的位置。很多后续工作尝试用空间域的形状配准来弥补这一问题,但这些方法通常要求形状已经刚性对齐,且对拓扑噪声敏感。

核心矛盾:功能映射框架的高效性来源于低频近似,但平滑的逐点对应需要高频信息。现有正则化方法(如Dirichlet能量)要么计算开销大(需要迭代优化),要么会导致退化解(将所有点映射到同一位置)。需要一种既高效又有效的平滑性正则化。

本文目标 设计一种通用正则化方法,能够无缝集成到现有深度功能映射框架中,在不增加太多计算成本的前提下显著提升逐点对应的空间平滑性。

切入角度:作者受图消息传递和Weisfeiler-Leman图同构测试的启发,提出"同步扩散"的概念——如果两个形状之间的对应关系是正确且平滑的,那么在两个形状上同步进行热传导扩散后,对应位置的函数值应该保持一致。

核心 idea:利用热扩散过程作为正则化信号,通过惩罚"同步扩散后不一致"的对应关系来鼓励空间平滑匹配。

方法详解

整体框架

方法建立在深度功能映射框架之上。输入是两个三角网格 \(\mathcal{M}\)\(\mathcal{N}\),首先通过共享的DiffusionNet特征提取器获取顶点特征,然后通过特征匹配建立软逐点对应 \(\Pi\),最后在谱域计算功能映射矩阵 \(C\)。同步扩散正则化作为额外的损失项加入训练,与现有的谱域正则化(bijectivity、orthogonality、coupling)联合优化。推理时通过谱域最近邻搜索得到最终逐点对应。

关键设计

  1. 同步扩散正则化(Synchronous Diffusion Regularization):

    • 功能:通过热扩散过程检测并惩罚空间上不平滑的逐点对应
    • 核心思路:给定形状 \(\mathcal{M}\) 上的随机初始函数 \(F_\mathcal{M}\),先用软对应矩阵 \(\Pi_{\mathcal{NM}}\) 将其传输到形状 \(\mathcal{N}\) 上得到 \(F_\mathcal{N} = \Pi_{\mathcal{NM}} F_\mathcal{M}\)。然后在两个形状上分别进行时间为 \(t\) 的热扩散:\(F_\mathcal{M}(t) = h_t^\mathcal{M}(F_\mathcal{M})\)\(F_\mathcal{N}(t) = h_t^\mathcal{N}(F_\mathcal{N})\)。最后将 \(F_\mathcal{N}(t)\) 传输回 \(\mathcal{M}\),计算与 \(F_\mathcal{M}(t)\) 的差异:\(L_{diff} = \|F_\mathcal{M}(t) - \Pi_{\mathcal{MN}} F_\mathcal{N}(t)\|_F^2\)。如果对应关系正确且平滑,两个扩散后的函数应该一致;如果对应有局部错误(如相邻点映射到远处),扩散后的差异会暴露这些错误
    • 设计动机:热扩散自然地在形状上交换邻域信息,无需依赖精确的网格连通性。相比消息传递(依赖离散邻域),扩散更鲁棒,不依赖具体的网格剖分。这使得正则化在不同分辨率和拓扑的形状上都适用
  2. 多尺度随机扩散时间采样:

    • 功能:通过随机采样不同的扩散时间 \(t\) 实现多尺度平滑性正则化
    • 核心思路:对于初始函数 \(F_\mathcal{M}\) 的每一列(每个标量函数),独立采样扩散时间 \(t_i \sim \text{Uniform}(0, T)\)。小的 \(t\) 只覆盖局部邻域(类似一步消息传递),大的 \(t\) 覆盖更大的区域(类似多步消息传递)。最终的多尺度损失为 \(L_{diff} = \sum_{i=1}^h \|h_{t_i}^\mathcal{M}(F_\mathcal{M}^i) - \Pi_{\mathcal{MN}} h_{t_i}^\mathcal{N}(\Pi_{\mathcal{NM}} F_\mathcal{M}^i)\|_F^2\)。扩散通过谱加速计算:\(h_t(u) = \Phi \exp(-t\Lambda) \Phi^\top u\),其中 \(\Phi\)\(\Lambda\) 是拉普拉斯特征函数和特征值
    • 设计动机:固定扩散时间只能在特定尺度上检测不一致性。随机多尺度策略让正则化同时覆盖从局部到全局的不同尺度,且比手动调参更鲁棒。实验也验证了随机采样比固定时间效果好2.4个点(TOPKIDS上)
  3. 随机初始函数:

    • 功能:使用随机采样的单位范数函数作为扩散输入,而非预定义的函数
    • 核心思路:初始函数 \(F_\mathcal{M} \in \mathbb{R}^{n_\mathcal{M} \times h}\) 的每一列是随机采样的单位范数向量,每个训练迭代重新采样。这相当于对完整的二次赋值问题(QAP)的矩阵sketch近似——用 \(h\) 个随机函数代替 \(n\) 个Dirac delta函数(\(h \ll n\)),在大幅降低计算成本的同时保持足够的检测能力
    • 设计动机:使用Dirac函数(即热核匹配)需要 \(O(n^2)\) 的计算,用拉普拉斯特征函数虽然确定但缺乏随机性带来的多样性。随机函数在每次迭代提供不同的"探测信号",统计上可以覆盖整个形状表面,实验也显示比确定性初始函数(如拉普拉斯特征函数)性能更好

损失函数 / 训练策略

总损失为功能映射框架的标准损失加上同步扩散正则化:\(L_{total} = L_{diff} + \lambda_{couple} L_{couple} + \lambda_{struct} L_{struct}\)。其中 \(L_{couple}\) 约束逐点映射与功能映射的一致性,\(L_{struct}\) 包含功能映射的双射性和正交性约束。超参数设置 \(\lambda_{couple} = \lambda_{struct} = 1\)。最大扩散时间 \(T = 10^{-2}\)(近等距/拓扑噪声数据集)或 \(T = 10^{-4}\)(非等距数据集,因为大扩散时间在非等距形状上不一致)。随机函数维度 \(h = 128\)

实验关键数据

主实验

数据集 指标(×100) 本文 URSSM AttnFMaps 提升
FAUST 测地误差↓ 1.5 1.6 1.9 -6.3%
SCAPE 测地误差↓ 1.8 1.9 2.2 -5.3%
SHREC'19 (跨数据集) 测地误差↓ 3.4 4.6 5.8 -26.1%
TOPKIDS (拓扑噪声) 测地误差↓ 5.4 9.2 11.1 -41.3%
SMAL (非等距) 测地误差↓ 6.7 7.5 8.8 -10.7%
DT4D-H inter (非等距) 测地误差↓ 4.8 5.3 7.3 -9.4%
SHREC'16 CUTS 测地误差↓ 6.1 7.0 - -12.9%
SHREC'16 HOLES 测地误差↓ 8.7 10.5 - -17.1%

消融实验 (TOPKIDS数据集)

配置 测地误差(×100) 说明
Full model (Ours) 5.4 随机初始+随机扩散时间
(a) w/o 正则化 9.2 基线URSSM,无扩散正则化
(b) 固定单一扩散时间 7.8 失去多尺度能力
(c) 用拉普拉斯特征函数 10.7 确定性初始函数效果差
(d) 热核匹配替代 8.9 传统QAP范式,计算开销更大
(e) Dirichlet能量替代 9.5 有退化解风险
(f) Cycle-consistency替代 9.8 等价于t=0的扩散,无平滑性约束

关键发现

  • 在拓扑噪声场景下提升最大(TOPKIDS上降低41.3%误差),因为扩散过程对小的拓扑噪声具有鲁棒性。通过控制最大扩散时间 \(T\) 在较小值可以聚焦于局部邻域,减少拓扑噪声的全局影响
  • 跨数据集泛化性显著优于现有方法(SHREC'19上降低26.1%),说明同步扩散正则化有效提升了模型的泛化能力
  • 随机初始函数比确定性初始函数(拉普拉斯特征函数)好5.3个点,因为随机函数在不同迭代提供多样化的探测信号
  • \(t=0\) 时正则化退化为cycle-consistency,验证了扩散过程本身才是平滑性的来源
  • 扩散时间 \(T\) 在拓扑噪声数据集上敏感性较高(\(T=10^{-2}\) 最优),对正常形状不太敏感

亮点与洞察

  • 同步扩散的概念优雅且通用:通过一个简单定义(同步扩散一致性)就建立了平滑性约束,不需要复杂的空间配准。核心公式只有一行,但效果显著
  • 理论基础扎实:论文从两个角度给出理论解释——可视为QAP的随机近似(矩阵sketching),也可视为连续域的WL测试。这使方法不仅有效而且可解释
  • 即插即用的正则化:只需在现有深度功能映射方法的损失函数中加一项,不需要修改网络架构或推理流程。这种非侵入式设计极大地降低了使用门槛,可以很容易地集成到未来的方法中
  • 多尺度随机策略比固定时间好:这个发现对很多使用扩散过程的方法都有参考价值

局限与展望

  • 作者承认目前只在基于功能映射的非刚性3D形状匹配中验证了方法,虽然概念上可以推广到图像关键点匹配、图匹配、点云匹配等场景,但未做验证
  • 无法处理partial-to-partial shape matching,这是功能映射框架本身的限制
  • 对于严重非等距的形状对,扩散过程在两个形状上本质上不一致(热核结构不同),理论上的同步扩散假设不严格成立。虽然实验中通过小 \(T\) 缓解了这个问题,但这需要针对不同数据集手动调参
  • 超参数 \(T\) 的选择对拓扑噪声数据集较敏感,目前缺乏自动选择 \(T\) 的机制

相关工作与启发

  • vs DGMC (Deep Graph Matching Consensus): DGMC用消息传递实现邻域一致性验证,但需要额外的GNN作为验证器,计算开销大。本文将离散消息传递替换为连续热扩散,更高效且对网格剖分更鲁棒
  • vs Heat Kernel Matching: 热核匹配在核空间中度量距离,计算矩阵大小为 \(n \times n\)(顶点对),而同步扩散在特征空间中度量,矩阵大小为 \(n \times h\)\(h \ll n\)),计算效率更高。同时,热核匹配可以视为同步扩散的特殊情况
  • vs Dirichlet能量正则化: Dirichlet能量的最优解是退化的(所有点映射同一位置),需要额外约束来避免。同步扩散天然鼓励双射/高覆盖率的对应,不存在退化解问题

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 同步扩散概念新颖,理论-实验完美结合
  • 实验充分度: ⭐⭐⭐⭐⭐ 六类场景全面验证,消融实验详尽系统
  • 写作质量: ⭐⭐⭐⭐⭐ 概念清晰,理论推导严谨,结构极好
  • 价值: ⭐⭐⭐⭐ 即插即用的正则化器,对3D形状匹配领域贡献大

相关论文