Are General-Purpose Vision Models All We Need for 2D Medical Image Segmentation? A Cross-Dataset Empirical Study¶

会议: CVPR 2026
arXiv: 2603.13044
代码: 有 (GitHub, 具体链接见论文)
领域: 医学图像 / 语义分割 / 基准评测
关键词: 通用视觉模型, 医学分割, 跨数据集评估, Grad-CAM可解释性, 架构选择

一句话总结¶

在统一训练和评估协议下对比11个专用医学分割架构(SMA)和通用视觉模型(GP-VM)，发现GP-VM在三个异质医学数据集上超越大多数SMA，且Grad-CAM分析表明GP-VM无需领域特定设计即可捕获临床相关结构。

背景与动机¶

医学图像分割(MIS)过去十年涌现了大量专用架构以应对低对比度、小解剖结构、有限标注等域特异挑战。与此同时，通用视觉模型在标准基准上不断发展。然而两类方法之间缺乏系统性公平对比——各论文使用不同训练设置、数据拆分、增强策略和超参数搜索空间，导致结论不可比。需要控制变量的实证研究来判断：专用设计的归纳偏置在当代通用模型面前是否仍有不可替代的优势？

核心问题¶

专为医学影像定制的分割架构(U-Net及其变体)是否比强大的通用视觉模型(Swin Transformer、ConvNeXt等)具有系统性优势？如何在消除实现差异的情况下做出可靠判断？

方法详解¶

整体框架¶

控制实证研究：选取11个代表性模型（SMA和GP-VM各有代表），在统一训练协议下跑三个覆盖不同成像模态和类别结构的医学分割数据集，用分割精度和Grad-CAM可解释性双维度评估。

关键设计¶

统一评估协议: 所有模型使用相同优化器、学习率策略、数据增强、损失函数和训练轮数，消除"实现技巧"带来的不公平优势，确保差异仅来自架构本身
跨数据集验证: 三个异质数据集覆盖不同成像模态（CT、内窥镜、皮肤镜等）、类别数量和数据特性，避免单数据集结论偏差
Grad-CAM可解释性分析: 超越精度指标，通过可视化模型关注区域分析GP-VM是否真正理解医学结构而非依赖偶然纹理或颜色
广覆盖模型选择: 11个模型从经典(U-Net)到前沿(Swin Transformer、ConvNeXt等)，SMA和GP-VM均有充分代表

损失函数 / 训练策略¶

统一协议下所有模型使用相同损失函数和训练策略（论文全文HTML版不可获取，具体设定参见原文）。

实验关键数据¶

维度	发现
分割精度	GP-VM在分析的数据集上超越大多数专用SMA
可解释性	GP-VM的Grad-CAM热图聚焦于临床相关区域，无需显式领域归纳偏置
跨数据集一致性	结论在三个异质数据集上保持一致，非单数据集偶然

（注：论文全文HTML版本未成功获取，具体Dice/IoU数值无法提取，建议参阅原PDF）

消融实验要点¶

GP-VM的优势在不同数据集上程度不同但趋势一致
专用设计的归纳偏置（多尺度跳跃连接、注意力门控等）在特定条件下仍有边际优势
模型规模对结论的影响值得进一步分析

亮点¶

直接挑战"医学分割必须专用架构"的普遍假设，提供反直觉但有证据支撑的结论
Grad-CAM证据使结论不仅停留在精度数字层面，增加了临床可解释性维度
实验设计的方法论价值：展示了如何做公平的跨架构对比研究

局限性 / 可改进方向¶

仅覆盖2D分割，3D场景下结论可能不同
三个数据集虽异质但有限，极端罕见病变和微小结构评估不足
GP-VM在标注极度稀缺(few-shot)场景下表现未验证
模型规模差异对结论的影响未深入剖析
未考虑预训练数据量差异（GP-VM通常在ImageNet等大规模数据上预训练）

与相关工作的对比¶

vs 专用MIS综述: 以往综述关注SMA间对比，本文首次系统引入GP-VM为对照组
vs nnU-Net: nnU-Net通过自动配置达到前沿性能但仍基于U-Net结构；本文探讨的是架构类型层面的选择
vs SAM: SAM是基础模型级别的通用分割器，本文GP-VM指在ImageNet预训练的backbone+解码器

启发与关联¶

实际医学影像项目中，不必执着于从零设计专用架构，直接用通用模型配合微调可能更有效
方法论启示：公平对比很重要，许多专用架构的优势可能来自精细工程技巧而非架构创新本身

评分¶

新颖性: ⭐⭐⭐ 研究问题有价值，但方法上无新架构，属于实证研究类贡献
实验充分度: ⭐⭐⭐ 11模型×3数据集覆盖面好，但全文数据未完整获取
写作质量: ⭐⭐⭐ 摘要清晰，研究问题聚焦
价值: ⭐⭐⭐⭐ 结论对实际模型选择有直接指导意义，具有实用参考价值