3DTeethSAM: Taming SAM2 for 3D Teeth Segmentation¶

会议: AAAI 2026
arXiv: 2512.11557
代码: https://github.com/Crisitofy/3DTeethSAM
领域: 3D视觉 / 医学图像分割
关键词: 3D牙齿分割, SAM2适配, 多视角渲染, 可变形注意力, 基础模型迁移

一句话总结¶

将SAM2基础模型迁移到3D牙齿分割任务，通过多视角渲染将3D mesh转为2D图像、设计三个轻量适配器（Prompt生成器、Mask精化器、Mask分类器）和可变形全局注意力插件（DGAP）来解决自动提示、边界精化和语义分类问题，在Teeth3DS上以91.90% T-mIoU刷新SOTA。

背景与动机¶

3D牙齿分割是数字化口腔的基础任务，需要将3D牙齿模型中的每颗牙齿实例定位并分类。现有方法主要依赖直接处理3D点云/mesh的专用网络（如PointNet++、MeshSegNet、TSGCNet等），存在两个核心瓶颈：(1) 这些从头训练的网络难以扩展到高分辨率3D模型；(2) 无法利用大规模预训练模型的知识。与此同时，SAM2作为2D视觉基础模型在各种下游任务上展现了强大的零样本能力，但将其迁移到3D牙齿分割面临维度不匹配、需要手动提示、类别不可知三大挑战。

核心问题¶

如何将SAM2这一2D基础模型有效适配到3D牙齿分割任务？具体需要解决：(1) SAM2依赖手动点/框提示，无法自动化；(2) SAM2的原始分割结果边界粗糙；(3) SAM2是类别无关的，无法区分不同牙齿ID。这三个问题共同阻碍了直接使用SAM2进行高精度、全自动的3D牙齿分割。

方法详解¶

整体框架¶

整个pipeline分为三步：(1) 多视角渲染：将3D牙齿mesh归一化后，从正面、背面及多个侧面等固定视角渲染为512×512的2D RGB图像；(2) SAM2适配分割：冻结SAM2预训练权重，通过三个轻量适配器和DGAP对2D图像进行分割，生成16通道mask（每通道对应一颗牙齿）；(3) 2D→3D提升：反投影将2D分割结果映射回3D mesh顶点，对多视角结果进行投票聚合，最后用Graph Cut后处理修正边界。

关键设计¶

Prompt Embedding Generator (PEG)：借鉴DETR的思路，用Transformer Decoder将16个随机初始化的query向量转化为prompt embedding。自注意力建模牙齿间的位置关系，交叉注意力对齐图像特征。额外学习一个置信度分数来处理缺牙情况（值越高表示该牙齿实例存在的概率越大）。这完全取代了SAM2对手动提示的依赖。
Mask Refiner：基于UNet架构的卷积网络，接收三路输入——原始牙齿图像（提供低级纹理/形状细节）、SAM2生成的粗略mask（提供空间先验）、SAM2的图像embedding（提供高级语义）。在UNet的收缩路径中，每层有三个并行流分别处理三路输入，然后拼接传递。这种设计专门解决SAM2通用预训练导致的边界不精确问题。
Mask Classifier：同样采用Transformer Decoder架构（与PEG共享设计但独立参数），将16个query向量转化为类别概率向量。末端用MLP+Softmax输出17类概率（16颗牙+背景）。这比简单的"通道绑定牙齿ID"策略更鲁棒，避免了缺牙场景下的通道-ID错配问题。
Deformable Global Attention Plugin (DGAP)：集成到SAM2图像编码器Hiera trunk第3阶段的全局注意力块中。利用offset network预测偏移量来形变采样网格，使注意力集中在牙齿区域。与标准可变形注意力不同的是，query/key/value都从形变特征图预测，且通过skip connection融合形变和非形变特征。DGAP是即插即用模块，不修改SAM2内部实现。

损失函数 / 训练策略¶

训练策略：冻结SAM2预训练权重，仅训练三个适配器和DGAP。使用匈牙利算法进行预测query与真值的一对一匹配。AdamW优化器，学习率2e-4，余弦退火+5 epoch warmup，训练100 epoch，batch size 4，混合精度。
总损失：\(L_{\text{total}} = \lambda_{MC} L_{MC} + \lambda_{PEG} L_{PEG} + \lambda_{MR} L_{MR}\)，权重分别为1.0、1.0、2.0。
\(L_{MC}\)：17类交叉熵损失（Mask Classifier）
\(L_{PEG}\)：BCE + Dice + 置信度损失（Prompt Embedding Generator）
\(L_{MR}\)：多类CE + Dice + 边界损失（Mask Refiner，边界损失用Sobel滤波器计算梯度的L1距离）

实验关键数据¶

数据集：Teeth3DS（1800个高分辨率口腔内3D扫描，900名患者，官方1200/600划分）

数据集	指标	本文	之前SOTA (ToothGroupNet)	提升
Teeth3DS	OA	95.48%	95.19%	+0.29%
Teeth3DS	T-mIoU	91.90%	90.16%	+1.74%
Teeth3DS	B-IoU	70.05%	69.30%	+0.75%
Teeth3DS	Dice	94.33%	—	—
Teeth3DS	智齿T-mIoU (T8/16)	83.29%	68.20%	+15.09%

消融实验要点¶

PEG是最关键模块：移除后T-mIoU暴跌39.44%（91.90%→52.46%）。即使用真值中心点作为手动提示，性能也远不如学习到的prompt embedding，说明PEG捕获了复杂的空间关系和上下文信息。
DGAP：移除后T-mIoU降1.29%，B-IoU降3.41%，且显著减慢了训练收敛速度。
Mask Refiner：移除后T-mIoU降0.80%，B-IoU降1.62%，主要影响边界质量。
Mask Classifier：移除后T-mIoU降0.59%，B-IoU降2.49%，主要解决相邻牙齿的类别混淆。

亮点¶

"渲染→2D分割→反投影"范式：将3D分割优雅地转化为2D问题，从而可以直接利用强大的2D基础模型，是一个通用且可复用的思路。
PEG的DETR式设计：用Transformer Decoder自动生成prompt embedding，完全绕过SAM2对手动提示的依赖，且建模了牙齿间的空间关系。
DGAP即插即用：不修改SAM2内部实现，通过skip connection融合形变/非形变特征，同时提升精度和训练效率，可推广到其他基础模型适配场景。
智齿分割大幅提升：在稀有类别（智齿）上获得15%+的提升，展示了基础模型在数据稀缺场景下的优势。

局限性 / 可改进方向¶

多视角渲染引入额外计算开销，推理效率可能不如直接处理3D数据的方法。
仅在Teeth3DS一个数据集上验证，泛化性未知（不同扫描仪、不同种族的牙齿形态差异）。
固定视角渲染可能遗漏某些角度的细节（如严重拥挤的牙齿），自适应视角选择可能更优。
2D→3D的投票策略较简单，更精细的多视角融合方案（如可学习的融合权重）可能进一步提升。
论文未讨论实时性和临床部署场景的可行性。

与相关工作的对比¶

vs ToothGroupNet：ToothGroupNet是之前SOTA，直接在3D mesh上操作。3DTeethSAM通过2D基础模型迁移的方式超越它，尤其在稀有类别上优势巨大（智齿+15%），但引入了多视角渲染的额外开销。
vs MedSAM：MedSAM将SAM适配到医学2D图像，但不处理3D数据。3DTeethSAM通过渲染→分割→反投影的pipeline解决了2D-3D维度不匹配问题。
vs 传统3D网络（PointNet++, DGCNN等）：这些方法从头训练、难以利用预训练知识、在高分辨率mesh上扩展性差。3DTeethSAM冻结SAM2权重、仅训练轻量适配器，参数效率更高。

启发与关联¶

通用3D分割范式：渲染→2D基础模型→反投影的思路可推广到其他3D医学分割任务（如骨骼、器官等），甚至非医学3D分割（如室内场景、自动驾驶点云）。
自适应视角选择：当前固定视角，可以设计一个可学习的视角选择模块，根据mesh复杂度动态确定渲染视角。
多基础模型融合：SAM2负责分割，可以引入其他基础模型（如DINOv2）提供更丰富的语义特征。
端到端3D基础模型：当前方案通过2D中转，未来可否直接在3D空间训练类SAM的基础模型？

评分¶

新颖性: ⭐⭐⭐⭐ 渲染+SAM2适配的思路有创新，但各模块（DETR式query、UNet refiner、可变形注意力）均有先例
实验充分度: ⭐⭐⭐⭐ 消融实验详尽，11种方法对比，但仅一个数据集
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述到位，图示直观
价值: ⭐⭐⭐⭐ 展示了2D基础模型→3D分割的可行路径，对口腔数字化有实际意义，范式可推广