跳转至

χ: Symmetry Understanding of 3D Shapes via Chirality Disentanglement

会议: ICCV 2025
arXiv: 2508.05505
代码: 项目页面
领域: 3D视觉
关键词: 手性特征, 对称性, 形状匹配, 左右消歧, 2D基础模型蒸馏

一句话总结

提出无监督手性特征提取管线,从2D基础模型特征中蒸馏左右手性信息用于装饰3D形状顶点描述子,有效解决形状分析中的左右歧义问题。

研究背景与动机

核心矛盾

核心矛盾领域现状对称性和手性是同一枚硬币的两面:对称性关注两部分的相似性,手性关注差异性。在形状分析中,许多顶点描述子(如Diff3F)虽然具有语义和几何鲁棒性,但无法区分左右对称部分,导致:

形状匹配中的左右歧义 — 左眼可能匹配到右眼

部件分割不精确 — 无法区分对称的身体部位

对应关系质量下降 — 特别是在有对称结构的模型上

虽然2D图像领域对视觉手性已有研究(Visual Chirality),但3D形状分析中还没有提取手性感知顶点描述子的方法。

方法详解

整体流程

  1. 对3D网格从N个视角渲染纹理化图像 \(\{I_j\}_{j=1}^N\)
  2. 对每张图像水平翻转得到 \(\{\bar{I}_j\}_{j=1}^N\)
  3. 分别通过冻结的SD+DINO提取特征 \(F_{img}\)\(\bar{F}_{img}\)
  4. 投影到网格获得手性特征对 \((\mathcal{F}_v, \bar{\mathcal{F}}_v)\)
  5. 训练手性网络 \(\tilde{g}_\Phi\) 从特征对中提取手性特征 \(\chi, \bar{\chi}\)

手性特征定义

\[\chi_v := \frac{[\tilde{g}(\mathcal{F}_v)]_1}{\|\tilde{g}(\mathcal{F}_v)\|_2}\]

取第一个维度并归一化,确保 \(\chi_v \in [-1, 1]\)

损失函数设计

不相似性损失 — 最大化原始与翻转手性特征的差异: $\(\mathcal{L}_{dis} = -\frac{1}{\sqrt{|V|}}\|\chi - \bar{\chi}\|_2\)$

可逆性损失 — 防止编码器学到退化解: $\(\mathcal{L}_{inv} = \frac{1}{\sqrt{|V|}}\|[\mathcal{F}^\top\;\bar{\mathcal{F}}^\top]^\top - h(g([\mathcal{F}^\top\;\bar{\mathcal{F}}^\top]^\top))\|_F\)$

全变分损失 — 保证空间平滑性: $\(\mathcal{L}_{var} = \frac{1}{|E|}\sum_{(u,v) \in E} \|\chi_u - \chi_v\|_1 + \|\bar{\chi}_u - \bar{\chi}_v\|_1\)$

五五分损失 — 平衡左右两半的顶点数量: $\(\mathcal{L}_{fif} = \frac{1}{|V|}(\frac{|\chi^\top\mathbf{1}_{|V|}|}{\|\chi\|_\infty} + \frac{|\bar{\chi}^\top\mathbf{1}_{|V|}|}{\|\bar{\chi}\|_\infty})\)$

总损失: \(\mathcal{L} = \mathcal{L}_{dis} + \lambda_1\mathcal{L}_{inv} + \lambda_2\mathcal{L}_{var} + \lambda_3\mathcal{L}_{fif}\)

实验

左右区分准确率

主实验

训练/测试 BeCoS FAUST SCAPE SMAL TOSCA
Diff3F 50.87 51.21 52.53 50.91 51.48
DINO+SD 51.16 51.05 52.55 50.80 51.42
Liu et al. 79.98 90.45 80.84 75.71 72.88
χ (Ours) 91.84 94.76 95.51 96.59 94.09

跨数据集泛化

消融实验

训练集 BeCoS-h测试 BeCoS-a测试
BeCoS 94.09 84.19
BeCoS-h 90.36 91.10

关键发现

  1. 原始Diff3F/DINO+SD特征几乎无法区分左右(~50%,接近随机)
  2. 本方法在所有数据集上均达到90%以上的左右区分准确率
  3. 跨数据集、跨类别泛化能力强,甚至在部分形状和各向异性形状上也有效
  4. 将手性特征与Diff3F结合后,形状匹配中左右歧义问题得到有效缓解

亮点与洞察

  1. 水平翻转的巧妙利用 — 通过翻转图像改变手性信息而保持其他语义不变,构造手性特征对
  2. 无监督方法 — 不需要任何左右标注,纯粹从几何结构中学习
  3. 即插即用增强 — 可与任何现有顶点描述子结合使用
  4. 从2D到3D的知识蒸馏 — 有效利用2D基础模型中隐含的手性信息

局限与展望

  • 依赖Diff3F的渲染+纹理化流程,计算开销较大
  • 对完全对称物体(如球体)手性定义不明确
  • 四个损失需要仔细调参平衡

相关工作

  • 视觉手性: Lin et al. visual chirality, 镜面检测
  • 形状描述子: Diff3F, DINO-V2, StableDiffusion特征
  • 形状匹配: 函数映射, SE-ORNet, DPC

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (3D形状手性提取的首创工作)
  • 技术深度: ⭐⭐⭐⭐ (四个精心设计的损失函数)
  • 实验充分度: ⭐⭐⭐⭐ (多数据集多任务验证)
  • 实用价值: ⭐⭐⭐⭐ (直接改善形状匹配质量)

相关论文