Symmetrical Flow Matching: Unified Image Generation, Segmentation, and Classification with Score-Based Generative Models¶
会议: AAAI 2026
arXiv: 2506.10634
代码: github.com/caetas/SymmetricFlow
领域: 分割
关键词: Flow Matching, 语义分割, 图像生成, 分类, 统一框架
一句话总结¶
提出对称流匹配(SymmFlow),将语义分割、分类和图像生成统一到单一模型中,通过对称学习目标联合建模正反向流变换,仅需25步推理即在语义图像合成上达到SOTA(CelebAMask-HQ FID 11.9,COCO-Stuff FID 7.0),同时在分割和分类上取得有竞争力的结果。
研究背景与动机¶
计算机视觉中,分类、分割和生成三大任务通常由独立模型分别处理。理想情况下,一个统一框架应能同时理解和生成图像:准确理解视觉结构有助于生成语义一致的图像,而强大的生成能力也能学到更具表现力的图像表征。
现有方案的局限:
扩散模型做分类:需对所有类别进行迭代采样,推理极慢(如Diffusion Classifier需2750步)
扩散模型做分割:现有框架仅能生成掩码,无法映射回真实图像
SemFlow等统一方法仍存在三个关键限制: - 不支持分类任务 - 图像生成质量不如纯生成模型 - 强制要求分割掩码与图像具有相同通道数,限制灵活性
核心动机:Flow Matching框架天然具有双向性——正向流从噪声生成图像,反向流从图像恢复语义信息。SymmFlow利用这种对称性,在生成过程中保持足够的熵以确保多样性,同时在分割/分类过程中强制语义一致性。
方法详解¶
整体框架¶
SymmFlow将语义分割和语义图像合成建模为对立的流过程。给定数据分布 \(X\)(图像)和语义表示 \(Y\)(掩码或类别标签),SymmFlow建模它们之间的双向流: - 正向过程:\(X\) 从噪声中变换生成,同时 \(Y\) 向噪声方向演化 - 反向过程:反转这些变换,从 \(X\) 生成 \(Y\)
关键创新:\(Y\) 不需要与 \(X\) 具有相同维度,支持全局类别标签(分类)和像素级掩码(分割)等灵活条件。
关键设计¶
1. 对称训练目标¶
对每个样本采样 \(t \sim \mathcal{U}(0,1)\),通过凸组合构建扰动样本:
其中 \(\xi_x, \xi_y\) 为独立高斯噪声。最优传输速度场为:
模型 \(v_\theta(x_t, y_t, t)\) 联合近似两个流,最小化均方误差:
设计动机:对称公式确保图像生成分支有足够熵保证多样性,同时分割分支保留语义结构。与SemFlow单向流不同,SymmFlow同时学习两个方向的变换。
2. 分类与分割推理¶
与传统生成式分类器(需对所有类别逐一评估噪声预测误差)不同,SymmFlow通过积分预测速度场直接获取结果:
使用ODE求解器即可完成推理,无需遍历所有类别,大幅减少推理时间。分割时每个像素的类别根据与预定义类别RGB编码的最近距离确定;分类时预测类别为模型预测均值的最近标签。
3. 标签去量化(Dequantization)¶
对离散标签 \(Y\) 添加均匀噪声以防止训练不稳定:
去量化对于防止模型在少数特定值上分配过高似然(导致坍缩)至关重要。对分类模型,标签进一步归一化到 \([-1, +1]\) 区间。
设计动机:没有去量化,过低熵的分布会阻碍建模质量,导致退化解。这是Normalizing Flow中的经典技术,被巧妙应用于离散语义标签场景。
损失函数 / 训练策略¶
- 训练目标为单一的对称均方误差损失
- 使用Stable Diffusion 2.1的U-Net和预训练VAE,输入输出通道数翻倍以适配SymmFlow
- 像素级实现(分类)使用Guided Diffusion的U-Net
- Euler ODE求解器用于采样,默认25步推理
实验关键数据¶
主实验¶
语义图像合成(正向:mask→image):
| 数据集 | 指标 | SymmFlow | SemFlow | SDM | SCDM | SC-GAN |
|---|---|---|---|---|---|---|
| CelebAMask-HQ | FID↓ | 11.9 | 32.6 | 18.8 | 17.4 | 19.2 |
| CelebAMask-HQ | LPIPS↑ | 0.464 | 0.393 | 0.422 | 0.418 | 0.395 |
| COCO-Stuff | FID↓ | 7.0 | *90.0 | 15.9 | 15.3 | 18.1 |
| COCO-Stuff | LPIPS↑ | 0.609 | *0.685 | 0.518 | 0.519 | — |
语义分割(反向:image→mask):
| 数据集 | 指标 | SymmFlow | SemFlow | SegFormer | MaskFormer |
|---|---|---|---|---|---|
| CelebAMask-HQ | mIoU↑ | 69.3 | *69.4 | — | — |
| COCO-Stuff | mIoU↑ | 39.6 | *35.7 | 46.7 | 37.1 |
分类:
| 数据集 | 步数 | SymmFlow | Diffusion Classifier |
|---|---|---|---|
| MNIST | 1 / 25 | 99.3 / 99.6 | — |
| CIFAR-10 | 1 / 25 | 88.2 / 90.6 | 88.5 (2750步) |
SymmFlow仅用25步即超越Diffusion Classifier在CIFAR-10上的表现,而后者需要2750步。
消融实验¶
推理步数对生成质量的影响:
| 步数 | CelebA FID↓ | CelebA LPIPS↓ | COCO FID↓ | COCO LPIPS↓ |
|---|---|---|---|---|
| 1 | 88.5 | 0.598 | 102.6 | 0.777 |
| 5 | 49.5 | 0.522 | 44.3 | 0.704 |
| 10 | 28.2 | 0.486 | 18.2 | 0.652 |
| 25 | 11.9 | 0.464 | 7.0 | 0.609 |
推理步数对分割性能的影响:
| 步数 | CelebA mIoU↑ | COCO mIoU↑ |
|---|---|---|
| 1 | 65.3 | 29.3 |
| 2 | 70.3 | 33.8 |
| 5 | 70.3 | 38.1 |
| 20 | 69.4 | 40.1 |
玩具实验(螺旋数据集)分类准确率:
| 步数 | 1 | 2 | 5 | 10 | 20 | 50 |
|---|---|---|---|---|---|---|
| Acc(%) | 100.0 | 92.0 | 87.0 | 83.6 | 82.6 | 82.0 |
关键发现¶
- 图像生成大幅受益于更多步数,FID从88.5降至11.9(CelebA),但分割在2步即接近最优
- 分类仅需1步即可获得最高准确率,因为随着 \(X\) 向高斯分布演化,类别边界模糊化
- 生成质量超越所有先前方法,包括需要200-1000步的扩散模型
- LPIPS解读需结合FID:低步数时高LPIPS反映质量差而非多样性好
亮点与洞察¶
- 优雅的双向建模:将分割和生成视为对称的流过程,概念简洁且数学形式统一
- 打破通道约束:Y不需要与X同维度,使得分类(全局标签)和分割(像素掩码)统一成为可能
- 计算效率突出:25步推理远优于扩散模型的数百步,分类仅需1步
- 玩具实验的教学价值:螺旋数据集清晰展示了正向/反向流的语义分离能力
局限与展望¶
- 分割分辨率瓶颈:在64×64×4的潜空间操作,对小面积类别(耳环、眉毛)分割质量受限
- 模型体积大:依赖Stable Diffusion U-Net,虽然步数少但单步计算量大
- 分类仅在MNIST/CIFAR-10验证:缺乏ImageNet等大规模数据集上的评估
- 分割性能仍不及专用分割模型(如SegFormer在COCO-Stuff上46.7 vs 39.6)
- 未来可探索蒸馏为一步模型、微调VAE解码器以改善分割、MMDiT等更强架构
相关工作与启发¶
- SemFlow(2024):直接前身,也使用流匹配统一分割和生成,但SymmFlow在生成质量上大幅超越
- Diffusion Classifier(2023):用扩散模型做分类的先驱,但推理成本太高
- Flow Matching(Lipman 2022):SymmFlow的理论基础,将CNF训练从需要模拟简化为直接匹配
- 对称性思想可推广到深度估计、图像编辑等任务
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (对称流匹配的统一建模非常优雅,打破通道约束的设计有创见)
- 实验充分度: ⭐⭐⭐⭐ (生成和分割实验充分,但分类验证偏弱)
- 写作质量: ⭐⭐⭐⭐⭐ (逻辑清晰,玩具实验辅助理解,图表精美)
- 价值: ⭐⭐⭐⭐ (统一建模的方向有前景,但分割精度仍需提升)
相关论文¶
- [CVPR 2025] EditAR: Unified Conditional Generation with Autoregressive Models
- [AAAI 2026] JoDiffusion: Jointly Diffusing Image with Pixel-Level Annotations for Semantic Segmentation Promotion
- [AAAI 2026] Segment and Matte Anything in a Unified Model (SAMA)
- [AAAI 2026] Breaking the Stealth-Potency Trade-off in Clean-Image Backdoors with Generative Trigger Optimization
- [AAAI 2026] Text-guided Controllable Diffusion for Realistic Camouflage Images Generation