Developing Foundation Models for Universal Segmentation from 3D Whole-Body Positron Emission Tomography¶

会议: CVPR 2026
arXiv: 2603.11627
代码: GitHub
领域: 医学图像分割 / 基础模型 / PET 成像
关键词: PET segmentation, foundation model, promptable segmentation, 3D architecture, universal model

一句话总结¶

构建迄今最大的全身 PET 分割数据集 PETWB-Seg11K（11041 例扫描、59831 个掩模），并提出 SegAnyPET 基础模型，实现基于 prompt 的 3D 全身 PET 通用可交互分割，在多中心、多示踪剂、多疾病场景下展现强 zero-shot 泛化能力。

背景与动机¶

PET 成像可视化放射性示踪剂分布以量化代谢过程，在肿瘤学和神经学中不可替代。但用于 PET 定量分析的深度学习模型发展远落后于 CT/MRI：原因包括 PET 缺乏解剖对比度（低分辨率、部分容积效应）、数据采集和标注成本高、公开数据集少且局限于特定肿瘤任务。现有通用分割基础模型（SAM-Med3D、SegVol、SAT 等）主要在结构影像（CT/MRI）上训练，直接迁移到 PET 效果极差——特别是文本提示模型（如 SAT）在 PET 器官分割上 DSC 接近 0。

核心问题¶

如何为功能性 PET 影像构建一个真正通用的分割基础模型——能够灵活分割训练中见过的器官和未见过的病灶/器官，支持多示踪剂和多中心场景，并融入临床 human-in-the-loop 工作流？

方法详解¶

整体框架¶

PETWB-Seg11K 数据集构建 → SegAnyPET 3D 基础模型训练 → 多层次评估（in-distribution 器官/病灶 + out-of-distribution 跨中心/跨示踪剂/跨疾病）→ 下游临床应用验证（标注效率 + 代谢网络分析）。

关键设计¶

PETWB-Seg11K 数据集：整合 AutoPET-FDG（1014 例肿瘤）+ UDPET（1371 例多器官）+ PETS-A（5731 例）+ PETS-B（2925 例），涵盖多中心、多扫描仪、多疾病，附带内部验证集（886 例）和外部验证集（1551 例，包含 PSMA-PET 前列腺癌等全新示踪剂）。
SegAnyPET 架构：全 3D Transformer 架构（非 2D+adapter 的妥协方案），包含 Image Encoder（3D 特征提取 + 绝对位置编码）、Prompt Encoder（支持 sparse/dense prompt, 点和粗掩模）、Mask Decoder（3D Transformer blocks + 转置卷积上采样 + MLP 预测头），实现端到端体积分割。
迭代评估循环：模拟交互式分割流程——自动从当前预测与 GT 的差异中生成新 prompt（FN 区域采正点、FP 区域采负点），累积 prompt 反馈给模型，驱动分割逐步收敛到 GT。
SegAnyPET-Lesion 变体：在 SegAnyPET 基础上用病灶数据微调 200 epoch，增强对小的异质性肿瘤病灶的敏感度和边界精度。

损失函数 / 训练策略¶

Dice Loss + Cross-Entropy（sigmoid 激活 + squared predictions）
AdamW 优化器，Image Encoder lr=8e-5，Prompt/Mask Decoder lr=8e-6，weight decay=0.1
8 × A100 80GB，500 epoch，global batch size=96，patch size=128³
MultiStepLR（120/180 epoch 各降 10×）
每次迭代随机采样 1-20 个 click，增强交互适应性
增强：随机轴向/冠状/矢状翻转 + 自适应裁剪/填充到 128³

实验关键数据¶

vs 任务特定模型（nnUNet/STUNet/SwinUNETR/SegResNet）：SegAnyPET（5p）在多数器官上 DSC 可比或超过，如肝脏 0.9494 vs nnUNet 0.9379，且无需 per-task 重训练
vs 通用分割基础模型（SAM-Med3D/SAT/VISTA3D/SegVol/nnIteractive）：所有现有模型在 PET 上表现极差——SAT（文本提示）器官分割 DSC≈0；SAM-Med3D 最好也仅 0.61；SegAnyPET（1p）达到 0.84
跨中心/跨示踪剂泛化（外部验证）：UMD-PETCT 13 器官、UMD-PETMR 多器官、AutoPET-PSMA 前列腺癌，SegAnyPET 展现强 zero-shot 能力，如 PSMA-PET 前列腺癌 DSC=0.576（SegAnyPET-Lesion），远超其他基础模型
临床标注效率：SegAnyPET 辅助交互式工作流比纯人工标注节省 82.4%/83.0% 时间（两位专家）
代谢网络分析：SegAnyPET 输出具有高生物学保真度，可构建可靠的全身代谢协方差网络

消融实验要点¶

1-point → 3-point → 5-point prompt 下 DSC 持续提升（如肝脏 0.926→0.939→0.949），验证了交互式精炼的有效性
通用模型 vs 病灶特化模型（SegAnyPET-Lesion）：后者在淋巴瘤和肺癌分割上有明显提升

亮点¶

填补了 PET 影像分割基础模型的空白——此前所有"通用"医学分割基础模型实际上都对 PET 无效
数据规模创纪录：11K+ 全身 PET 扫描远超现有 PET 数据集
全 3D 架构设计直接利用体积空间信息，避免了 2D slice-by-slice 的碎片化问题
开源代码和模型，有利于社区推动 PET AI

局限性 / 可改进方向¶

点 prompt 对弥漫性多病灶（如淋巴瘤全身散布）效率低，需逐个病灶 prompt——未来可引入文本 prompt 或自动语义分割
训练数据以 FDG 示踪剂为主，PSMA 等其他示踪剂数据有限
病灶分割指标（DSC ~0.1-0.15 基线很低）仍有很大改进空间
需要更多前瞻性临床研究验证实际工作流集成效果

与相关工作的对比¶

vs SAM / MedSAM（2D）：需要 N 倍 prompt 工作量（每个切片），推理时间增加 10-30 倍，且缺乏 3D 空间连续性
vs SAM-Med3D（3D 点 prompt）：PET 上性能远逊于 SegAnyPET（如肝脏 0.702 vs 0.926），因训练数据为结构影像
vs SAT（文本 prompt）：在 PET 上完全失效（DSC≈0），说明结构影像训练的文本-视觉对齐无法迁移到 PET 的代谢分布模式
vs nnUNet（任务特定）：SegAnyPET 一个模型替代多个 nnUNet 任务特定模型，且能泛化到未见目标

启发与关联¶

不同模态需要专属基础模型——通用 ≠ 万能，PET 的功能性成像特征与结构影像存在根本性 domain gap
"prompt 工程"在 3D 医学影像中的设计原则值得系统研究

评分¶

新颖性: ⭐⭐⭐⭐ 首个 PET 专属分割基础模型，数据集和模型均有开创性
实验充分度: ⭐⭐⭐⭐⭐ 多中心、多示踪剂、多模型对比、下游应用验证，评估极为全面
写作质量: ⭐⭐⭐⭐ 结构清晰、图表丰富，数据展示规范
价值: ⭐⭐⭐⭐ 填补重要空白，开源推动社区发展