Co-synthesis of Histopathology Nuclei Image-Label Pairs using a Context-Conditioned Joint Diffusion Model¶

会议: ECCV 2024
arXiv: 2407.14434
代码: 无
领域: 医学图像
关键词: 组织病理学, 细胞核分割, 联合扩散模型, 数据增强, 图像-标签协同合成

一句话总结¶

提出一种上下文条件化的联合扩散模型，能够同时合成组织病理学细胞核图像、语义标签和距离图，通过点图（centroid layout）和文本提示两种条件实现对合成过程的精确控制，并生成高质量的实例级标签用于下游核分割和分类任务。

研究背景与动机¶

组织病理学细胞核分割与分类是数字病理学中的关键任务，核的大小、形状、密度等特征为疾病诊断提供重要依据。深度学习方法在该领域取得了显著进展，但其性能受限于训练数据的匮乏——手动标注组织病理学图像需要病理学家的专业知识，耗时且昂贵。

现有方法的痛点：

缺乏上下文感知：现有生成方法（如GAN、扩散模型）往往忽略了生物组织的上下文（形状、空间布局、组织类型），生成的合成数据缺乏空间和结构的真实性。

无法同时生成图像-标签对：大多数方法要么先生成标签再生成图像（两阶段方法，速度慢），要么基于已有的像素级标签生成图像（缺乏标签多样性），没有方法能在单一模型中一步完成图像和标签的协同生成。

标签控制力不足：Semantic-Palette可以控制类别比例但无法精确控制空间位置；Abousamra等能生成空间感知的点布局但只能产生点级标签，无法用于分割任务。

实例分离困难：常规语义标签合成中，相邻的细胞核容易聚集为一个大区域，无法区分单个实例。

核心矛盾：如何在一个统一框架中，既能精确控制合成样本的空间布局和组织类型，又能同时生成高质量的图像与多粒度（语义+实例）标签？

本文切入角度：将点图条件（控制核的空间位置和类别）与文本条件（控制组织类型）结合，通过联合扩散模型同时生成图像、语义标签和距离图，再利用距离图和点图通过watershed算法生成实例标签。

方法详解¶

整体框架¶

系统由一个联合扩散模型构成，输入为细胞核质心布局的点图（point map）和描述组织类型的文本提示，输出三元组 \(u := (i, d, l^s)\)，即图像 \(i\)、距离图 \(d\) 和语义标签 \(l^s\)。随后通过后处理步骤从 \(d\)、\(l^s\) 和点图中生成实例标签 \(l^i\)。

关键设计¶

联合扩散过程（Joint Diffusion Process）：针对不同模态选择适当的噪声分布——图像和距离图是连续数据，使用高斯扩散（Eq.1）；语义标签是离散数据（K个类别），使用类别扩散（Eq.2）。三个目标在逆向过程中同时去噪：

\[p_\theta^u(u_{t-1}|u_t) = p_\theta^i(i_{t-1}|u_t) \cdot p_\theta^d(d_{t-1}|u_t) \cdot p_\theta^{l^s}(l^s_{t-1}|u_t)\]

训练使用复合损失函数：\(\mathcal{L}_{total} = \lambda_i \cdot \mathcal{L}_i + \lambda_d \cdot \mathcal{L}_d + \lambda_{l^s} \cdot \mathcal{L}_{l^s}\)，其中 \(\lambda_i=9, \lambda_d=1, \lambda_{l^s}=3\)。

设计动机：通过在单一模型中联合建模多模态的联合分布，保证了图像与标签之间的一致性，同时避免了多阶段方法的累积误差和推理时间问题。

上下文条件化（Context Conditions）：引入两种条件来增强生成质量和可控性：
- 点图条件 \(pc\)：定义每个细胞核实例的质心位置和类别，通过RRDB网络编码。与像素级标签条件相比，点图条件只需每个实例1个像素的指导信息，却能产生多样化的标签（同一点布局可生成不同的标签和图像）。
- 文本条件 \(tc\)：包含组织类型和核类别信息，格式为"high-quality histopathology [tissue type] tissue image including nuclei types of [cell types]"，使用病理学专用的视觉-语言模型PLIP编码。

采用classifier-free guidance调整预测噪声：\(\tilde{\epsilon}_\theta(u_t, t, pc, tc) = \omega \epsilon_\theta(u_t, t, pc, tc) + (1-\omega) \epsilon_\theta(u_t, t, pc)\)

设计动机：点图提供空间和类别分布的精确控制，文本提供组织结构层面的全局语义信息，两者互补实现对生成内容的全方位控制。

实例分离模块（Nuclei Instance Separation）：利用合成的距离图 \(d\)、语义标签 \(l^s\) 和点图条件 \(pc\) 作为标记点，应用marker-controlled watershed算法将语义标签分离为实例级标签 \(l^i\)。距离图量化了每个像素到最近核质心的归一化欧氏距离（0-1）。

设计动机：常规的连通性分析和无标记watershed容易出现欠分割或过分割问题，而用点图作为marker可以精确确定每个实例的种子点，显著提升实例分离质量。

损失函数 / 训练策略¶

总损失为三个目标的加权和，各目标分别对应图像（MSE噪声预测）、距离图（MSE噪声预测）和语义标签（类别扩散损失）
使用Adam优化器（\(\beta_1=0.9, \beta_2=0.99\)），学习率 Lizard/PanNuke 为 \(10^{-4}\)，EndoNuke 为 \(10^{-5}\)
采样步数 \(T=1000\)，使用三个独立的cosine schedule
训练时以10%概率丢弃文本条件实现classifier-free guidance

实验关键数据¶

主实验：生成质量评估¶

在三个多类别组织病理学核分割数据集（Lizard、PanNuke、EndoNuke）上使用FID、IS和FSD三个指标评估生成质量：

方法	Lizard FID↓	Lizard IS↑	Lizard FSD↓	PanNuke FID↓	PanNuke IS↑	PanNuke FSD↓
Yu et al.	-	-	963.36	-	-	1292.05
SemanticPalette	86.17	2.11	0.55	109.23	3.36	1.23
Park et al.	52.65	2.22	65.06	61.16	3.48	34.43
SDM	45.99	2.35	-	107.80	3.82	-
Ours	38.78	2.40	0.13	37.35	3.77	1.44

下游任务性能（Hover-Net基线）¶

数据集	方法	Dice	AJI	Acc	说明
Lizard	Baseline	0.620	0.383	0.763	仅真实数据
Lizard	w/ SDM	0.718	0.488	0.862	全像素标签条件
Lizard	w/ Ours	0.716	0.484	0.866	点条件，接近SDM
PanNuke	Baseline	0.782	0.598	0.668	仅真实数据
PanNuke	w/ Ours	0.824	0.662	0.736	多指标第一
EndoNuke	Baseline	0.878	0.594	0.891	仅真实数据
EndoNuke	w/ Ours	0.899	0.645	0.926	多指标第一

消融实验：实例分离方法对比¶

方法	Lizard mDice	PanNuke mDice	EndoNuke mDice
Connectivity-based	0.9383	0.9146	0.5524
Yu et al. (watershed)	0.9374	0.9462	0.9268
Ours (point-guided)	0.9754	0.9980	0.9634

关键发现¶

仅用每实例1个像素的点条件即可实现FSD 0.13（Lizard），远优于全像素标签条件
当增加合成数据集数量时，本文方法在下游任务上持续提升，而SDM方法4组后即饱和（Dice和分类精度差异超过10%），证明点条件生成的标签多样性更有效
病理学家盲评显示：合成图像的真实性评分甚至高于真实图像，图像-标签对齐度与真实数据相当

亮点与洞察¶

极致简约的条件控制：仅需每个核1个像素的质心点即可引导高质量图像-标签对的生成，大大降低了条件标注的成本
一个模型三个输出：单一联合扩散模型同时生成图像、距离图和语义标签，避免多阶段推理的时间和质量损耗
点条件的灵活性优势：同一个点布局可以生成多样化的标签和图像，而全像素标签条件只能变化图像风格，这在数据增强场景中意味着更好的数据多样性

局限与展望¶

数据合成时间较长：扩散模型1000步采样仍然耗时，需要探索加速采样方法
点布局生成：目前依赖从真实数据提取点布局，未来可开发生成更真实点布局的方法
单分辨率：仅在256×256分辨率上实验，对于全slide级别的分析可能需要更大分辨率
文本条件单一：文本格式较为固定，未探索更细粒度的文本描述

评分¶

新颖性: ⭐⭐⭐⭐ 首次实现点条件+文本条件的图像-标签-距离图三路联合扩散合成，设计巧妙
实验充分度: ⭐⭐⭐⭐ 三个数据集、多种对比方法、病理学家盲评、下游任务验证、消融实验完整
写作质量: ⭐⭐⭐⭐ 结构清晰，图示丰富，动机阐述充分
价值: ⭐⭐⭐⭐ 对医学图像数据增强有直接实用价值，点条件的思路可启发其他领域