EchoONE: Segmenting Multiple Echocardiography Planes in One Model¶

会议: CVPR 2025
arXiv: 2412.02993
代码: https://github.com/a2502503/EchoONE
领域: 医学图像
关键词: 超声心动图分割、多切面分割、SAM适配、先验可组合掩码、统一模型

一句话总结¶

本文提出 EchoONE，首次用一个统一模型解决超声心动图多切面分割（MPS）问题，通过先验可组合掩码学习（PC-Mask）模块生成语义感知的稠密 prompt，并设计局部特征融合与适配（LFFA）模块将 CNN 局部特征注入 SAM 解码器，在 6 个切面上持续达到 SOTA 性能。

研究背景与动机¶

领域现状：超声心动图检查需要从多个切面（如心尖二腔、三腔、四腔、胸骨旁短轴等）观察心脏结构，进行全面评估。机器学习分割模型通常需要为每个切面单独训练，因为不同切面的心脏结构差异巨大（长轴 vs 短轴、腔室数量不同、解剖标志各异），导致开发和部署复杂度很高。

现有痛点：现有多切面方案分为两类：(1) 多分支架构——每个分支处理一个切面，再通过跨视角注意力/一致性约束融合，本质上仍是分而治之，无法泛化到新切面；(2) 混合训练——将多个切面数据合并训练单一模型，但性能通常明显下降（如 U-Net 多切面联合训练 Dice 从 ~89 掉到 ~86）。SAM 作为通用分割基础模型在自然图像上表现出色，但直接应用于超声图像由于低对比度、高噪声、组织边界模糊等特点导致性能极差（Dice 仅 ~25%）。

核心矛盾：多切面超声图像的结构差异太大（长轴看到的是纵向切面，短轴是横向切面，腔室形态完全不同），而 SAM 的标准 prompt 机制不具备区分这些结构差异的语义感知能力。如何让一个模型"知道"当前输入是哪种切面并自适应调整分割行为？

本文目标 (1) 构建一个统一模型处理多切面超声分割，无需知道输入的切面信息；(2) 设计语义感知的稠密 prompt 生成机制；(3) 有效将 SAM 适配到超声心动图的多切面场景。

切入角度：作者利用先验结构知识——不同切面的图像在特征空间中有聚类规律，可以预计算每个聚类的平均掩码作为结构先验。对新输入图像，通过计算其与各聚类原型的相似度加权组合先验掩码，无需显式的切面标签即可生成语义感知的稠密 prompt。

核心 idea：用聚类先验掩码的相似度加权组合生成语义感知的稠密 prompt，让 SAM 自适应分割不同超声切面。

方法详解¶

整体框架¶

EchoONE 由三部分组成：(1) SAM 架构主体（ViT-B 图像编码器 + 掩码解码器）；(2) PC-Mask 模块负责生成语义感知的稠密 prompt，输入到 SAM 的掩码编码器；(3) CNN 分支通过 LFFA 模块与 SAM 解码器进行局部特征交互，辅助 SAM 适配。统一掩码表示将所有数据集的标注重映射为 4 类：背景(0)、左心室(1)、左心室腔(2)、心肌(3)。

关键设计¶

先验可组合掩码学习（PC-Mask）:
- 功能：在不知道输入切面信息的前提下，自动生成高质量的语义感知稠密 prompt
- 核心思路：首先在预训练 ResNet34 的潜在空间中，将所有训练图像聚类为 \(K\) 个组，每个组有一个特征原型 \(u_i\) 和对应的平均掩码 \(m_i\)。对新输入图像 \(I_j\)，计算其与各原型的余弦相似度 \(w(i,j) = \text{cossim}(E_{Lat}(I_j), u_i)\)，然后用相似度加权拼接各组的平均掩码 \(PE_j = \text{concat}([w(i,j) \times m_i])\)，形成多通道先验嵌入。最后用一个轻量 U-Net 将先验嵌入细化为最终的稠密 prompt \(PCM_j = UNet_\theta(PE_j)\)。
- 设计动机：关键在于 PC-Mask 的语义来自聚类先验而非输入图像本身，这使得它提供的是与传统分割网络不同的结构引导信息。且不依赖切面标签，天然适合多切面统一模型。
局部特征融合与适配模块（LFFA）:
- 功能：将 CNN 提取的局部特征注入 SAM 的解码器，弥补 ViT 对局部细节的不足
- 核心思路：设计一个 CNN 分支（Residual blocks + 跨分支注意力），其每层输出的局部特征与 SAM 解码器中对应 Transformer block 的 key 通过拼接+1×1 卷积融合，得到融合特征 \(f_{F,l} = \text{conv}_{1\times1}(\text{concat}(f_{CNN,l}, f_{DM-K,l}))\)，然后送入下一个 Transformer block 作为新的 image embedding。在原始 SAM 的 2 个解码器 Transformer block 基础上额外增加 3 个可学习 block 来容纳 4 层 CNN 特征的注入。
- 设计动机：SAM 的 ViT 在自然图像上预训练，缺乏超声图像中低对比度结构的局部理解能力。CNN 分支提供互补的局部细节特征，且通过 skip 连接直接注入解码器比仅调整编码器更有效，同时加速了收敛。
统一掩码表示:
- 功能：统一来自不同数据源、不同标注协议的训练数据
- 核心思路：将所有数据集的标注重映射为统一的 4 类语义（背景、LV、LV cavity、MYO）。对仅有心肌标注的数据，通过检测解剖标志点并填充来生成 LV cavity 掩码。
- 设计动机：多源数据集使用不同标注协议（有的标左心室有的标心肌有的标左心房），必须统一才能联合训练。

损失函数 / 训练策略¶

总损失 \(\mathcal{L} = \mathcal{L}_{SEG} + 0.5 \cdot \mathcal{L}_{PCM}\)。\(\mathcal{L}_{SEG}\) 监督最终分割输出（0.8 Dice + 0.2 BCE），\(\mathcal{L}_{PCM}\) 监督 PC-Mask 模块的掩码学习（同 Dice + BCE 组合）。使用 Adam 优化器（lr=1e-4），训练 100 epochs，图像 resize 到 256×256，单卡 A6000 训练。

实验关键数据¶

主实验（内部评估，按切面平均）¶

方法	2CH mDice	4CH mDice	PSAX mDice	整体均值
U-Net	86.40	86.62	82.32	~85.3
SAMUS	87.51	88.37	85.92	~87.3
SAM (zero-shot)	26.24	27.22	25.10	~26.2
MedSAM	81.76	84.14	76.99	~81.0
EchoONE	89.67	90.28	88.26	~89.4

EchoONE 在所有切面上均取得最高 Dice，且在 PSAX 短轴切面上优势特别明显（88.26 vs SAMUS 85.92），可能归功于 PC-Mask 的结构先验对短轴心脏切面的有效引导。

消融/外部验证¶

数据集	EchoONE mDice	SAMUS mDice	U-Net mDice
中心 A (内部)	89.67	87.51	86.75
中心 B (内部)	87.27	85.54	77.35
HMC_QU (外部)	73.94	72.38	67.47
EchoNet (外部)	87.62	85.77	83.10

在两个完全未参与训练的外部数据集上，EchoONE 仍取得最佳性能，展现出良好泛化能力。即使 HMC_QU 包含低质量图像和噪声标注，EchoONE 仍优于所有竞争方法。

关键发现¶

SAM 直接用于超声图像完全失败（Dice ~25%），说明自然图像与医学超声存在巨大分布差异
传统方法中 SAMUS（专门为超声设计的 SAM 适配方法）表现最好，但 EchoONE 在所有切面上仍显著优于它
PC-Mask 模块贡献了主要性能增益，尤其在 PSAX 切面上效果最突出
LFFA 模块不仅提升了分割精度，还加速了模型收敛

亮点与洞察¶

PC-Mask 的"先验组合"思路非常巧妙：不直接从图像生成 prompt，而是从预计算的聚类先验中加权组合，这使得 prompt 包含了跨数据集的结构知识，具有更强的泛化性
统一掩码表示解决了多源超声数据标注不一致的实际问题，这个工程化贡献对超声社区很有价值
一个模型处理 6 个切面是该领域首次，相比传统方法需要 6 个独立模型，部署复杂度大幅降低

局限与展望¶

PC-Mask 的聚类数 \(K\) 是预设超参，文中未充分讨论其选择对性能的影响
当前仅在心脏超声上验证，是否可推广到其他多切面/多平面医学影像（如 MRI、CT）需要进一步探索
统一掩码表示将 LA 的标注简化处理，可能丢失了部分左心房的结构信息
ViT-B 作为图像编码器在推理时的计算开销较大，移动端部署可能需要更轻量的backbone
外部泛化在 HMC_QU 上 Dice 仅 73.94%，与内部评估有差距，低质量图像场景仍有提升空间

评分¶

新颖性: ⭐⭐⭐⭐ PC-Mask 的聚类先验组合设计新颖，但整体框架基于 SAM 适配的研究较多
实验充分度: ⭐⭐⭐⭐⭐ 7 个数据集（5 内部 + 2 外部）、6 个切面的全面验证极为充分
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法描述规范，图示信息量大
价值: ⭐⭐⭐⭐ 首次解决超声多切面统一分割问题，对临床部署有直接价值