JoDiffusion: Jointly Diffusing Image with Pixel-Level Annotations for Semantic Segmentation Promotion¶

会议: AAAI 2026
arXiv: 2512.13014
作者: Haoyu Wang, Lei Zhang (通讯), Wenrui Liu, Dengyang Jiang, Wei Wei (西北工业大学), Chen Ding 代码: GitHub
领域: segmentation
关键词: 语义分割, 数据集生成, 扩散模型, 联合生成, 标注掩码, 潜在空间

一句话总结¶

提出JoDiffusion框架，通过在潜在空间中联合扩散图像与像素级标注掩码，首次实现仅基于文本提示同时生成语义一致的图像-标注对，在Pascal VOC、COCO和ADE20K上显著超越现有Image2Mask和Mask2Image方法。

研究背景与动机¶

问题背景¶

语义分割依赖大规模高质量的图像-像素级标注对进行训练，但人工标注成本极高，特别是在多目标交互或密集小目标场景下。利用扩散模型生成合成数据集成为缓解标注瓶颈的有力方案。

已有方法的不足¶

现有方法分为两类流水线，各有致命缺陷：

Image2Mask（先生图后推标注）：如DiffuMask、Dataset Diffusion、SDS等，先用文本生成图像，再通过交叉注意力等机制推断伪标注。问题在于文本-图像相似度计算误差和特征图空间分辨率不足，导致图像与标注语义不一致
Mask2Image（先给标注再生图）：如FreeMask、SegGen等，基于手工标注掩码生成图像。虽然语义一致性好，但受限于手工标注数量，可扩展性差，生成图像的多样性受制于有限的标注模板

核心动机¶

能否用一个统一的模型，仅基于文本提示就能同时生成语义一致的图像和像素级标注？这样既保证语义一致性，又不受手工标注数量限制，同时解决上述两类方法的问题。

方法详解¶

JoDiffusion包含三个阶段：标注VAE训练、联合扩散建模、掩码优化。

阶段1：标注VAE（Annotation VAE）¶

为将标注掩码映射到与图像共享的潜在空间，设计专用的标注VAE：

输入表示：将每个像素的类别索引转为二进制编码\(M_{\text{bin}}\)，避免相邻类别值过于接近导致区分困难
轻量架构：编码器\(E_M\)和解码器\(D_M\)仅使用少量卷积/转置卷积层，参数量约50M（对比图像VAE的300M）
训练目标：仅用交叉熵损失训练，不施加KL散度正则化（因其仅作压缩工具而非生成模型）

\[\mathcal{L}_{\text{Annotation VAE}} = -\sum_{(i,j)}\sum_{c=0}^{N_C} M_{\text{one-hot},(i,j,c)} \log \bar{M}_{(i,j,c)}\]

重建质量：在三个数据集上mIoU均超过98%，证明了编码的高保真性

阶段2：联合扩散建模（Joint Diffusion）¶

基于UniDiffuser架构，将文本、图像和标注掩码在潜在空间中联合扩散和去噪：

编码：用BLIP-2为图像生成描述文本\(T\)，分别通过CLIP文本/图像编码器和图像VAE得到\(z_T, z_I\)，通过标注VAE得到\(z_M\)
前向扩散：对\(z_I\)和\(z_M\)施加共享噪声\(\epsilon_{IM}\)，确保扩散过程中的结构一致性：

\[q(z_I^t, z_M^t | z_I^0, z_M^0) = \mathcal{N}\left(\sqrt{\bar{\alpha}_t}\begin{bmatrix}z_I^0 \\ z_M^0\end{bmatrix}, (1-\bar{\alpha}_t)I\right)\]

联合去噪：网络\(\epsilon_\theta(z_I^t, z_M^t, z_T, t)\)学习联合噪声预测，而非独立估计各部分噪声
训练损失：标准MSE去噪损失

\[\mathcal{L}_{\text{denoising}} = \mathbb{E}_{t, z_I^0, z_M^0, \epsilon}\left[\|\epsilon_\theta(z_I^t, z_M^t, z_T, t) - \epsilon_{IM}\|^2\right]\]

关键设计：采用自注意力（而非交叉注意力）拼接文本和图像特征进行建模，提供更灵活的调优能力。推理时仅需文本提示即可同时生成图像和标注掩码。

阶段3：掩码优化策略（Mask Optimization）¶

扩散过程在小区域和物体边界处不可避免地引入标注噪声。提出基于边界众数的后处理策略：

识别面积小于阈值\(\tau\)的小区域\(R\)
提取边界像素集\(\hat{R}\)
计算边界像素中出现频率最高的类别\(c^* = \arg\max_c \sum_{(i,j)\in\hat{R}} \mathbb{I}(x_{i,j}=c)\)
将区域\(R\)内所有像素重新赋值为\(c^*\)

该策略利用自然图像中语义区域的连续性先验，从统计角度等价于对区域真实类别的最大似然估计。

实验关键数据¶

表1：与Image2Mask方法对比（Pascal VOC & MS-COCO）¶

分割器	骨干网络	方法	VOC数据量	VOC mIoU (Syn)	VOC mIoU (Real+Syn)	COCO数据量	COCO mIoU (Syn)	COCO mIoU (Real+Syn)
DeepLabV3	ResNet50	Raw Dataset	11.5k	77.4	-	118k	48.9	-
DeepLabV3	ResNet50	SDS	26k	60.4	77.6	50k	31.0	50.3
DeepLabV3	ResNet50	Dataset Diffusion	40k	61.6	77.6	80k	32.4	54.6
DeepLabV3	ResNet50	JoDiffusion	40k	72.5	78.3	80k	42.6	56.4
DeepLabV3	ResNet101	Raw Dataset	11.5k	79.9	-	118k	54.9	-
DeepLabV3	ResNet101	SDS	26k	59.1	79.8	50k	31.8	56.8
DeepLabV3	ResNet101	Dataset Diffusion	40k	64.8	80.3	80k	34.2	57.4
DeepLabV3	ResNet101	JoDiffusion	40k	75.8	80.7	80k	44.9	59.1
Mask2Former	ResNet50	Raw Dataset	11.5k	77.3	-	118k	57.8	-
Mask2Former	ResNet50	DiffuMask	60k	57.4	77.5	-	-	-
Mask2Former	ResNet50	SDS	26k	59.8	78.1	50k	29.8	57.7
Mask2Former	ResNet50	Dataset Diffusion	40k	60.2	78.2	80k	31.0	57.8
Mask2Former	ResNet50	JoDiffusion	40k	74.5	79.4	80k	44.6	58.5

JoDiffusion在纯合成数据训练（Syn）上大幅领先：VOC上比次优方法高约10-14个mIoU点，COCO上高约10-13点；在Real+Syn混合训练上也一致领先。

表2：与Mask2Image方法对比（Pascal VOC & ADE20K）¶

骨干网络	方法	VOC数据量	VOC mIoU	ADE20K数据量	ADE20K mIoU
ResNet50	Raw Data	11.5k	77.3	20k	47.2
ResNet50	SegGen	-	-	11M	49.9
ResNet50	FreeMask	40k	77.9	40k	48.2
ResNet50	JoDiffusion	40k	79.4	40k	48.4
Swin-S	Raw Data	11.5k	83.8	20k	51.6
Swin-S	FreeMask	40k	84.2	40k	52.1
Swin-S	JoDiffusion	40k	85.1	40k	52.2

JoDiffusion在不需要手工标注掩码作为输入的前提下，仍然一致超越Mask2Image方法。

消融实验要点¶

掩码优化阈值：\(\tau=20\)时效果最优（72.47 mIoU），相比不优化（\(\tau=0\), 71.37）提升1.1个点
生成数据量：从5k到40k数据量增加带来持续的mIoU提升（68.54→72.47）

亮点¶

首次实现图像-标注联合生成：区别于先图后标注或先标注后图的两步法，仅需文本提示即可同时生成语义一致的图像-标注对，同时兼顾语义一致性和可扩展性
标注VAE设计精巧：二进制编码+轻量级架构（50M参数），重建mIoU>98%，有效将离散类别图映射到连续潜在空间
共享噪声机制：对图像和标注施加相同噪声，从扩散过程本身保证结构一致性，而非依赖后处理对齐
显著的性能增益：纯合成数据训练下，VOC上比Dataset Diffusion高10+mIoU点，证明了联合生成策略在语义一致性上的根本优势

局限与展望¶

依赖预训练文本描述：需要BLIP-2为训练图像生成文本描述，描述质量直接影响生成效果
固定分辨率训练：所有图像和标注统一resize到512×512，限制了对高分辨率精细分割的支持
掩码优化策略偏简单：基于边界众数的后处理仅处理小区域噪声，对大面积语义混淆无效
数据集覆盖有限：仅在VOC（21类）、COCO（81类）、ADE20K（150类）上验证，未涉及更细粒度或领域特定数据集
可扩展性上限未探索：最大仅生成40k-80k合成数据，未研究更大规模生成时的质量变化趋势
与Mask2Image方法的优势有限：在Real+Syn设定和ADE20K上，相比FreeMask的提升较为有限（<1 mIoU）

与相关工作的对比¶

DiffuMask：通过交叉注意力推断标注，语义一致性差（VOC Syn仅57.4），JoDiffusion联合生成避免了此问题
Dataset Diffusion：引入LLM生成多样文本+自注意力图改进标注质量，但仍受限于特征图分辨率（VOC Syn 60-65），JoDiffusion高出10+点
SDS：引入CLIP相似度和类别平衡过滤，但根本上仍是两步法，JoDiffusion在VOC Syn上领先12+点
FreeMask：Mask2Image代表方法，语义一致性好但受限于标注库规模，JoDiffusion在无需手工标注的条件下取得相当甚至更好的结果
SegGen：训练额外text-to-mask模型提升多样性，但需要11M数据量才达到ADE20K 49.9 mIoU，JoDiffusion用40k即达48.4
UniDiffuser：JoDiffusion的扩散架构基础，但UniDiffuser处理文本-图像双模态，JoDiffusion扩展为文本-图像-标注三模态联合建模

评分¶

新颖性: ⭐⭐⭐⭐ — 首次提出图像-标注联合扩散生成，思路清晰且有效
实验充分度: ⭐⭐⭐⭐ — 三个基准数据集、多种骨干网络、两类方法对比、消融实验完整
写作质量: ⭐⭐⭐⭐ — 三阶段框架描述清晰，公式推导完整，图示直观
价值: ⭐⭐⭐⭐ — 在语义分割数据生成领域提出了统一范式，实用价值高