跳转至

3D Dental Model Segmentation with Geometrical Boundary Preserving

会议: CVPR 2025
arXiv: 2503.23702
代码: https://github.com/XiShuFan/CrossTooth_CVPR2025
领域: 3D视觉 / 医学图像
关键词: Dental Segmentation, Intraoral Scan, Selective Downsampling, Cross-modal Fusion, Boundary Preserving

一句话总结

提出 CrossTooth,通过基于曲率先验的选择性下采样(边界区域顶点密度提升 10-15%)和多视角渲染图像的跨模态边界特征融合,在 3DTeethSeg'22 公开数据集上实现 95.86% mIoU 和 82.05% boundary IoU,分别比之前 SOTA(ToothGroupNet)提升 2.3% 和 5.7%。

研究背景与动机

  1. 领域现状:3D 口腔扫描(Intraoral Scan)网格广泛用于数字牙科诊断。牙齿分割是关键预处理步骤,深度学习方法已能高精度分割牙冠区域。
  2. 现有痛点牙冠-牙龈交界处(crown-gingiva junction)的分割精度远低于平均水平。原因:(a) 现有下采样方法(QEM/FPS/Voxel Grid)是均匀的,会丢失交界处的关键几何细节;(b) 仅基于坐标和法向量的 3D 特征难以充分表达微妙的边界区域。实际上,交界处具有明显的负曲率特征,且在 2D 渲染图像中边界更加清晰。
  3. 核心矛盾:下采样是必需的(10 万+ 点 → 1.6 万点),但均匀下采样不区分边界和非边界区域,导致边界信息被稀释。
  4. 本文要解决什么? 在保持下采样到 1.6 万点的前提下,保留更多边界区域的几何细节,并引入跨模态信息增强边界特征。
  5. 切入角度:观察到 (a) 交界处有明显的负曲率特征可作为先验;(b) 2D 渲染图像的明暗变化在交界处更清晰(垂直平行光照下牙冠与牙龈的阴影对比强烈)。
  6. 核心idea一句话:用曲率加权的选择性下采样保留边界顶点 + 多视角渲染图像提供跨模态边界特征。

方法详解

整体框架

CrossTooth 由两个分支组成:(1) 点云分支:对选择性下采样后的口腔扫描点云(16K 点,6D 特征=坐标+法向量)进行多尺度编码-解码处理(基于 Point Transformer);(2) 图像分支:对多视角渲染图像(96 张)进行语义分割(基于 PSPNet),生成像素级分割结果。最终通过 2D-3D 对应关系将图像特征投影回点云,两路特征用 MLP 融合后输出 17 类分割结果。

关键设计

  1. 选择性下采样(Selective Downsampling):
  2. 做什么:在 QEM 下采样基础上引入曲率先验,让边界区域保留更多顶点
  3. 核心思路:修改 QEM 的边折叠代价函数——对负曲率边(交界处)乘以大系数 \(k=10\),对正曲率边(牙冠顶部)乘以小系数 \(k=1\)。这样负曲率边的折叠代价高,在优先级队列中排后面,边界顶点得以保留。每轮迭代后重新计算曲率
  4. 设计动机:口腔扫描中,牙冠-牙龈交界处具有 distinctive 的负曲率特征,可作为无需额外标注的自然先验。实验证明边界区域顶点密度提升 10-15%

  5. 多视角图像渲染与特征提取:

  6. 做什么:在口腔扫描模型上方半球均匀放置 96 个虚拟相机,使用垂直向下的白色平行光渲染 96 张图像
  7. 核心思路:平行光在牙冠-牙龈交界处产生强烈的明暗对比(牙冠凸起形成亮区,牙龈凹陷形成阴影),使 2D 图像中的边界信息比 3D 点云中更加 discriminative。用 PSPNet 对每张渲染图进行 17 类语义分割(C×H×W = 17×1024×1024)
  8. 设计动机:图像下采样天然保留边缘信息(卷积操作具有边缘感知特性),而点云下采样容易丢失边界

  9. 跨模态特征融合 + 边界感知损失:

  10. 做什么:通过相机参数建立 3D 点→2D 像素的映射关系,将多视角图像的分割结果投影回点云。图像特征编码为 one-hot 向量后与点云解码器的最后一层特征拼接,通过 MLP 融合
  11. 边界损失:额外预测二值边界 mask(k=8 近邻中超半数属不同类则为边界点),并用 Contrastive Boundary Learning (CBL) 损失约束边界点特征的类间可分性
  12. 总损失:\(L = L_{CE}(image, point) + L_{CBL}(point)\)

训练策略

  • 数据集:3DTeethSeg'22(1800 上下颌模型,1440/360 划分)
  • 输入:16K 点×6D 特征 + 96 张渲染图像
  • 100 epochs,Adam,lr=1e-3,cosine decay,batch=4,RTX 3090

实验关键数据

主实验:3DTeethSeg'22 数据集

方法 mIoU (%) Boundary IoU (%)
MeshSegNet 66.13 40.13
TSegNet 57.24 27.04
SimpSegNet 88.45 59.95
ToothGroupNet 93.55 65.13
DilatedSegNet 91.44 62.70
CrossTooth 95.86 82.05

消融实验

配置 mIoU (%) Boundary IoU (%) 说明
CrossTooth-point 95.12 81.57 仅点云分支
CrossTooth-pixel 89.49 - 仅图像分支
CrossTooth (full) 95.86 82.05 跨模态融合最优

关键发现

  • 选择性下采样使边界区域顶点密度提升 10-15%(平均距离降低 ~15%),这对 boundary IoU 的提升是核心贡献——CrossTooth 的 boundary IoU 比 ToothGroupNet 提升 16.9 个百分点
  • 图像特征融合带来 0.7% mIoU 和 0.5% boundary IoU 的增量——增量不大但稳定有效,可能受限于简单的 MLP 融合策略
  • 纯图像分支(89.49% mIoU)远低于纯点云分支(95.12%),说明 3D 几何是主要信息源,图像起补充作用
  • 在 3D-IOSSeg 数据集、TSGCNet/HiCANet 等更多 baseline 上也验证了选择性下采样和图像融合的通用有效性
  • 渲染图像数量从 0→32→96→128 逐步提升性能,但 128 时 boundary IoU 开始下降(过多视角引入冗余)

亮点与洞察

  • 选择性下采样的思路简洁巧妙:仅需修改 QEM 的代价系数一个超参数,无需额外网络或标注,即可在不增加总点数的前提下将更多"预算"分配给边界区域。这一思路可推广到任何需要在有限预算下保留局部细节的 3D 处理任务
  • 光照设计的物理直觉:选择垂直向下平行光让牙冠-牙龈交界处产生最强对比,体现了对领域知识的深入理解
  • CrossTooth 的 FLOPs 仅 5.05G(不含 PSPNet 的 7.08G),在所有方法中计算量最低(对比 TSGCNet 174.85G),可见精心设计比堆参数更重要

局限性 / 可改进方向

  • 对少牙/缺牙情况处理不佳——牙齿整体信息与边界信息的关联在缺牙时被打破
  • 智齿(wisdom teeth)预测准确率低,因训练样本稀少,可考虑 few-shot learning
  • 跨模态融合仅在最后一层用简单 MLP 拼接,更细粒度的多层融合(如 encoder-decoder 级别的跨模态注意力)可能进一步提升效果
  • 96 张渲染图像在推理时引入额外计算,可探索更高效的视角选择策略

相关工作与启发

  • vs ToothGroupNet: ToothGroupNet 用牙齿检测+区域分割的两阶段策略,在 mIoU 上达 93.55%,但 boundary IoU 仅 65.13%。CrossTooth 通过选择性下采样直接针对边界痛点,boundary IoU 达 82.05%
  • vs TSGCNet: 双分支图卷积网络分别处理坐标和法向量,但未考虑下采样对边界的影响。CrossTooth 从数据预处理层面解决问题
  • vs 2DPASS (LiDAR分割): 同样利用 2D-3D 跨模态融合提升分割,但 2DPASS 面向自动驾驶场景,CrossTooth 针对医学牙科场景的特定挑战

评分

  • 新颖性: ⭐⭐⭐ 选择性下采样和跨模态融合均有先例,但针对牙科边界问题的组合应用有效
  • 实验充分度: ⭐⭐⭐⭐ 两个公开数据集、7+ baseline、完整消融(图像数量、下采样方式)
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,可视化丰富
  • 价值: ⭐⭐⭐ 应用导向工作,对数字牙科领域有直接实用价值,但方法泛化性有限