3D Dental Model Segmentation with Geometrical Boundary Preserving¶

会议: CVPR 2025
arXiv: 2503.23702
代码: https://github.com/XiShuFan/CrossTooth_CVPR2025
领域: 3D视觉 / 医学图像
关键词: Dental Segmentation, Intraoral Scan, Selective Downsampling, Cross-modal Fusion, Boundary Preserving

一句话总结¶

提出 CrossTooth，通过基于曲率先验的选择性下采样（边界区域顶点密度提升 10-15%）和多视角渲染图像的跨模态边界特征融合，在 3DTeethSeg'22 公开数据集上实现 95.86% mIoU 和 82.05% boundary IoU，分别比之前 SOTA（ToothGroupNet）提升 2.3% 和 5.7%。

研究背景与动机¶

领域现状：3D 口腔扫描（Intraoral Scan）网格广泛用于数字牙科诊断。牙齿分割是关键预处理步骤，深度学习方法已能高精度分割牙冠区域。
现有痛点：牙冠-牙龈交界处（crown-gingiva junction）的分割精度远低于平均水平。原因：(a) 现有下采样方法（QEM/FPS/Voxel Grid）是均匀的，会丢失交界处的关键几何细节；(b) 仅基于坐标和法向量的 3D 特征难以充分表达微妙的边界区域。实际上，交界处具有明显的负曲率特征，且在 2D 渲染图像中边界更加清晰。
核心矛盾：下采样是必需的（10 万+ 点 → 1.6 万点），但均匀下采样不区分边界和非边界区域，导致边界信息被稀释。
本文要解决什么？ 在保持下采样到 1.6 万点的前提下，保留更多边界区域的几何细节，并引入跨模态信息增强边界特征。
切入角度：观察到 (a) 交界处有明显的负曲率特征可作为先验；(b) 2D 渲染图像的明暗变化在交界处更清晰（垂直平行光照下牙冠与牙龈的阴影对比强烈）。
核心idea一句话：用曲率加权的选择性下采样保留边界顶点 + 多视角渲染图像提供跨模态边界特征。

方法详解¶

整体框架¶

CrossTooth 由两个分支组成：(1) 点云分支：对选择性下采样后的口腔扫描点云（16K 点，6D 特征=坐标+法向量）进行多尺度编码-解码处理（基于 Point Transformer）；(2) 图像分支：对多视角渲染图像（96 张）进行语义分割（基于 PSPNet），生成像素级分割结果。最终通过 2D-3D 对应关系将图像特征投影回点云，两路特征用 MLP 融合后输出 17 类分割结果。

关键设计¶

选择性下采样（Selective Downsampling）:
做什么：在 QEM 下采样基础上引入曲率先验，让边界区域保留更多顶点
核心思路：修改 QEM 的边折叠代价函数——对负曲率边（交界处）乘以大系数 \(k=10\)，对正曲率边（牙冠顶部）乘以小系数 \(k=1\)。这样负曲率边的折叠代价高，在优先级队列中排后面，边界顶点得以保留。每轮迭代后重新计算曲率
设计动机：口腔扫描中，牙冠-牙龈交界处具有 distinctive 的负曲率特征，可作为无需额外标注的自然先验。实验证明边界区域顶点密度提升 10-15%
多视角图像渲染与特征提取:
做什么：在口腔扫描模型上方半球均匀放置 96 个虚拟相机，使用垂直向下的白色平行光渲染 96 张图像
核心思路：平行光在牙冠-牙龈交界处产生强烈的明暗对比（牙冠凸起形成亮区，牙龈凹陷形成阴影），使 2D 图像中的边界信息比 3D 点云中更加 discriminative。用 PSPNet 对每张渲染图进行 17 类语义分割（C×H×W = 17×1024×1024）
设计动机：图像下采样天然保留边缘信息（卷积操作具有边缘感知特性），而点云下采样容易丢失边界
跨模态特征融合 + 边界感知损失:
做什么：通过相机参数建立 3D 点→2D 像素的映射关系，将多视角图像的分割结果投影回点云。图像特征编码为 one-hot 向量后与点云解码器的最后一层特征拼接，通过 MLP 融合
边界损失：额外预测二值边界 mask（k=8 近邻中超半数属不同类则为边界点），并用 Contrastive Boundary Learning (CBL) 损失约束边界点特征的类间可分性
总损失：\(L = L_{CE}(image, point) + L_{CBL}(point)\)

训练策略¶

数据集：3DTeethSeg'22（1800 上下颌模型，1440/360 划分）
输入：16K 点×6D 特征 + 96 张渲染图像
100 epochs，Adam，lr=1e-3，cosine decay，batch=4，RTX 3090

实验关键数据¶

主实验：3DTeethSeg'22 数据集¶

方法	mIoU (%)	Boundary IoU (%)
MeshSegNet	66.13	40.13
TSegNet	57.24	27.04
SimpSegNet	88.45	59.95
ToothGroupNet	93.55	65.13
DilatedSegNet	91.44	62.70
CrossTooth	95.86	82.05

消融实验¶

配置	mIoU (%)	Boundary IoU (%)	说明
CrossTooth-point	95.12	81.57	仅点云分支
CrossTooth-pixel	89.49	-	仅图像分支
CrossTooth (full)	95.86	82.05	跨模态融合最优

关键发现¶

选择性下采样使边界区域顶点密度提升 10-15%（平均距离降低 ~15%），这对 boundary IoU 的提升是核心贡献——CrossTooth 的 boundary IoU 比 ToothGroupNet 提升 16.9 个百分点
图像特征融合带来 0.7% mIoU 和 0.5% boundary IoU 的增量——增量不大但稳定有效，可能受限于简单的 MLP 融合策略
纯图像分支（89.49% mIoU）远低于纯点云分支（95.12%），说明 3D 几何是主要信息源，图像起补充作用
在 3D-IOSSeg 数据集、TSGCNet/HiCANet 等更多 baseline 上也验证了选择性下采样和图像融合的通用有效性
渲染图像数量从 0→32→96→128 逐步提升性能，但 128 时 boundary IoU 开始下降（过多视角引入冗余）

亮点与洞察¶

选择性下采样的思路简洁巧妙：仅需修改 QEM 的代价系数一个超参数，无需额外网络或标注，即可在不增加总点数的前提下将更多"预算"分配给边界区域。这一思路可推广到任何需要在有限预算下保留局部细节的 3D 处理任务
光照设计的物理直觉：选择垂直向下平行光让牙冠-牙龈交界处产生最强对比，体现了对领域知识的深入理解
CrossTooth 的 FLOPs 仅 5.05G（不含 PSPNet 的 7.08G），在所有方法中计算量最低（对比 TSGCNet 174.85G），可见精心设计比堆参数更重要

局限性 / 可改进方向¶

对少牙/缺牙情况处理不佳——牙齿整体信息与边界信息的关联在缺牙时被打破
智齿（wisdom teeth）预测准确率低，因训练样本稀少，可考虑 few-shot learning
跨模态融合仅在最后一层用简单 MLP 拼接，更细粒度的多层融合（如 encoder-decoder 级别的跨模态注意力）可能进一步提升效果
96 张渲染图像在推理时引入额外计算，可探索更高效的视角选择策略

评分¶

新颖性: ⭐⭐⭐ 选择性下采样和跨模态融合均有先例，但针对牙科边界问题的组合应用有效
实验充分度: ⭐⭐⭐⭐ 两个公开数据集、7+ baseline、完整消融（图像数量、下采样方式）
写作质量: ⭐⭐⭐⭐ 问题动机清晰，可视化丰富
价值: ⭐⭐⭐ 应用导向工作，对数字牙科领域有直接实用价值，但方法泛化性有限