Symmetrical Flow Matching: Unified Image Generation, Segmentation, and Classification with Score-Based Generative Models¶

会议: AAAI 2026
arXiv: 2506.10634
代码: github.com/caetas/SymmetricFlow
领域: 分割
关键词: Flow Matching, 语义分割, 图像生成, 分类, 统一框架

一句话总结¶

提出对称流匹配（SymmFlow），将语义分割、分类和图像生成统一到单一模型中，通过对称学习目标联合建模正反向流变换，仅需25步推理即在语义图像合成上达到SOTA（CelebAMask-HQ FID 11.9，COCO-Stuff FID 7.0），同时在分割和分类上取得有竞争力的结果。

研究背景与动机¶

计算机视觉中，分类、分割和生成三大任务通常由独立模型分别处理。理想情况下，一个统一框架应能同时理解和生成图像：准确理解视觉结构有助于生成语义一致的图像，而强大的生成能力也能学到更具表现力的图像表征。

现有方案的局限：

扩散模型做分类：需对所有类别进行迭代采样，推理极慢（如Diffusion Classifier需2750步）

扩散模型做分割：现有框架仅能生成掩码，无法映射回真实图像

SemFlow等统一方法仍存在三个关键限制： - 不支持分类任务 - 图像生成质量不如纯生成模型 - 强制要求分割掩码与图像具有相同通道数，限制灵活性

核心动机：Flow Matching框架天然具有双向性——正向流从噪声生成图像，反向流从图像恢复语义信息。SymmFlow利用这种对称性，在生成过程中保持足够的熵以确保多样性，同时在分割/分类过程中强制语义一致性。

方法详解¶

整体框架¶

SymmFlow将语义分割和语义图像合成建模为对立的流过程。给定数据分布 \(X\)（图像）和语义表示 \(Y\)（掩码或类别标签），SymmFlow建模它们之间的双向流： - 正向过程：\(X\) 从噪声中变换生成，同时 \(Y\) 向噪声方向演化 - 反向过程：反转这些变换，从 \(X\) 生成 \(Y\)

关键创新：\(Y\) 不需要与 \(X\) 具有相同维度，支持全局类别标签（分类）和像素级掩码（分割）等灵活条件。

关键设计¶

1. 对称训练目标¶

对每个样本采样 \(t \sim \mathcal{U}(0,1)\)，通过凸组合构建扰动样本：

\[x_t = (1-t)\xi_x + tx, \quad y_t = (1-t)y + t\xi_y\]

其中 \(\xi_x, \xi_y\) 为独立高斯噪声。最优传输速度场为：

\[v_x = x - \xi_x, \quad v_y = \xi_y - y\]

模型 \(v_\theta(x_t, y_t, t)\) 联合近似两个流，最小化均方误差：

\[\mathcal{L} = \mathbb{E}_{x,y,t}[\|v_\theta(x_t, y_t, t) - v\|^2]\]

设计动机：对称公式确保图像生成分支有足够熵保证多样性，同时分割分支保留语义结构。与SemFlow单向流不同，SymmFlow同时学习两个方向的变换。

2. 分类与分割推理¶

与传统生成式分类器（需对所有类别逐一评估噪声预测误差）不同，SymmFlow通过积分预测速度场直接获取结果：

\[y_0 = y_1 + \int_1^0 v_\theta(x_t, y_t, t)_y dt\]

使用ODE求解器即可完成推理，无需遍历所有类别，大幅减少推理时间。分割时每个像素的类别根据与预定义类别RGB编码的最近距离确定；分类时预测类别为模型预测均值的最近标签。

3. 标签去量化（Dequantization）¶

对离散标签 \(Y\) 添加均匀噪声以防止训练不稳定：

\[Y' = Y + \epsilon, \quad \epsilon \sim U(-\beta, +\beta)\]

去量化对于防止模型在少数特定值上分配过高似然（导致坍缩）至关重要。对分类模型，标签进一步归一化到 \([-1, +1]\) 区间。

设计动机：没有去量化，过低熵的分布会阻碍建模质量，导致退化解。这是Normalizing Flow中的经典技术，被巧妙应用于离散语义标签场景。

损失函数 / 训练策略¶

训练目标为单一的对称均方误差损失
使用Stable Diffusion 2.1的U-Net和预训练VAE，输入输出通道数翻倍以适配SymmFlow
像素级实现（分类）使用Guided Diffusion的U-Net
Euler ODE求解器用于采样，默认25步推理

实验关键数据¶

主实验¶

语义图像合成（正向：mask→image）：

数据集	指标	SymmFlow	SemFlow	SDM	SCDM	SC-GAN
CelebAMask-HQ	FID↓	11.9	32.6	18.8	17.4	19.2
CelebAMask-HQ	LPIPS↑	0.464	0.393	0.422	0.418	0.395
COCO-Stuff	FID↓	7.0	*90.0	15.9	15.3	18.1
COCO-Stuff	LPIPS↑	0.609	*0.685	0.518	0.519	—

语义分割（反向：image→mask）：

数据集	指标	SymmFlow	SemFlow	SegFormer	MaskFormer
CelebAMask-HQ	mIoU↑	69.3	*69.4	—	—
COCO-Stuff	mIoU↑	39.6	*35.7	46.7	37.1

分类：

数据集	步数	SymmFlow	Diffusion Classifier
MNIST	1 / 25	99.3 / 99.6	—
CIFAR-10	1 / 25	88.2 / 90.6	88.5 (2750步)

SymmFlow仅用25步即超越Diffusion Classifier在CIFAR-10上的表现，而后者需要2750步。

消融实验¶

推理步数对生成质量的影响：

步数	CelebA FID↓	CelebA LPIPS↓	COCO FID↓	COCO LPIPS↓
1	88.5	0.598	102.6	0.777
5	49.5	0.522	44.3	0.704
10	28.2	0.486	18.2	0.652
25	11.9	0.464	7.0	0.609

推理步数对分割性能的影响：

步数	CelebA mIoU↑	COCO mIoU↑
1	65.3	29.3
2	70.3	33.8
5	70.3	38.1
20	69.4	40.1

玩具实验（螺旋数据集）分类准确率：

步数	1	2	5	10	20	50
Acc(%)	100.0	92.0	87.0	83.6	82.6	82.0

关键发现¶

图像生成大幅受益于更多步数，FID从88.5降至11.9（CelebA），但分割在2步即接近最优
分类仅需1步即可获得最高准确率，因为随着 \(X\) 向高斯分布演化，类别边界模糊化
生成质量超越所有先前方法，包括需要200-1000步的扩散模型
LPIPS解读需结合FID：低步数时高LPIPS反映质量差而非多样性好

亮点与洞察¶

优雅的双向建模：将分割和生成视为对称的流过程，概念简洁且数学形式统一
打破通道约束：Y不需要与X同维度，使得分类（全局标签）和分割（像素掩码）统一成为可能
计算效率突出：25步推理远优于扩散模型的数百步，分类仅需1步
玩具实验的教学价值：螺旋数据集清晰展示了正向/反向流的语义分离能力

局限与展望¶

分割分辨率瓶颈：在64×64×4的潜空间操作，对小面积类别（耳环、眉毛）分割质量受限
模型体积大：依赖Stable Diffusion U-Net，虽然步数少但单步计算量大
分类仅在MNIST/CIFAR-10验证：缺乏ImageNet等大规模数据集上的评估
分割性能仍不及专用分割模型（如SegFormer在COCO-Stuff上46.7 vs 39.6）
未来可探索蒸馏为一步模型、微调VAE解码器以改善分割、MMDiT等更强架构

评分¶

新颖性: ⭐⭐⭐⭐⭐ （对称流匹配的统一建模非常优雅，打破通道约束的设计有创见）
实验充分度: ⭐⭐⭐⭐ （生成和分割实验充分，但分类验证偏弱）
写作质量: ⭐⭐⭐⭐⭐ （逻辑清晰，玩具实验辅助理解，图表精美）
价值: ⭐⭐⭐⭐ （统一建模的方向有前景，但分割精度仍需提升）