CLR-GAN: Improving GANs Stability and Quality via Consistent Latent Representation and Reconstruction¶
会议: ECCV 2024
arXiv: 无
代码: https://github.com/Petecheco/CLR-GAN
领域: 图像生成
关键词: GAN训练稳定性, 隐空间一致性, 生成对抗网络, 图像生成质量, 判别器重建
一句话总结¶
本文提出了CLR-GAN训练范式,通过让判别器恢复生成器的预定义隐码、让生成器重建真实输入,建立了G和D隐空间之间的一致性约束,使GAN训练更公平稳定,在CIFAR10上FID提升31.22%,在AFHQ-Cat上提升39.5%。
研究背景与动机¶
领域现状:生成对抗网络(GAN)因其卓越的图像生成能力而受到广泛关注。代表性方法包括StyleGAN系列、BigGAN、ProjectedGAN等。GAN的训练本质是生成器G和判别器D之间的博弈——G试图生成以假乱真的图像,D试图区分真伪。近年来虽然有各种改进(谱归一化、渐进训练、正则化等),但GAN的训练不稳定性仍是核心瓶颈。
现有痛点:GAN训练的核心困难在于G和D之间的博弈是不公平的。在标准GAN框架中,D有明确的监督信号(真/假标签),而G只能通过D的梯度间接学习。这种不对称导致了几个具体问题:(1)D容易过于强大导致G崩溃(模式崩溃);(2)G过于强大时D又失去了提供有用梯度的能力;(3)训练过程极度敏感于超参数,不同数据集和架构需要大量调参。
核心矛盾:传统GAN训练中,G和D是彼此对立的两个独立网络,它们之间缺乏结构化的约束关系。D输出的判别信息(真/假概率)丢弃了大量关于生成/真实图像的结构信息。这种信息浪费和不对称性是训练不稳定的根源。
本文目标 (1)如何让G和D在训练过程中建立更紧密、更对称的关系;(2)如何利用D的特征空间来提供更丰富的训练信号。
切入角度:作者提出将G和D视为彼此的逆过程。G从隐码 \(z\) 映射到图像 \(x\),那么D应该能从图像 \(x\) 恢复出 \(z\);反过来,如果D能将真实图像映射到某个特征空间,G也应该能重建那些真实图像。通过这种互逆关系,G和D的隐空间建立了一致性约束。
核心 idea:让D额外承担恢复G的输入隐码的任务、让G额外承担重建D看到的真实图像的任务,通过隐空间一致性约束将G和D放在对等位置上训练。
方法详解¶
整体框架¶
CLR-GAN在标准GAN训练的基础上增加了两个额外任务:(1)隐码恢复——D接收G生成的假图像后,不仅输出真/假判别,还要恢复出G使用的输入隐码 \(z\);(2)真实图像重建——G接收D的中间特征(或某种编码),要能重建出对应的真实图像。通过这两个互补任务,G和D之间建立了双向的隐空间映射关系。
整体训练流程保持GAN的交替训练框架不变:D的损失 = 判别损失 + 隐码恢复损失;G的损失 = 对抗损失 + 重建损失 + 一致性损失。
关键设计¶
-
隐码恢复(Latent Code Restoration):
- 功能:让判别器D具有从生成图像中恢复输入隐码 \(z\) 的能力
- 核心思路:在D的网络末端添加一个额外的投影头,输出与 \(z\) 同维度的向量 \(z'\)。训练时对生成图像 \(G(z)\) 计算恢复损失 \(\|D_{proj}(G(z)) - z\|\),要求D恢复的隐码与G使用的原始隐码一致。这迫使D不仅要区分真假,还要理解G的生成过程和隐空间结构
- 设计动机:标准GAN中D只输出一个标量(真/假),大量关于图像结构的信息被丢弃。隐码恢复迫使D保留更多结构信息,为G提供更丰富的梯度信号。同时,D要理解G的隐空间才能完成恢复任务,这隐含地限制了D过于"懒惰"地进行判别
-
真实图像重建(Real Image Reconstruction):
- 功能:让生成器G具有从D的特征/编码重建真实图像的能力
- 核心思路:将D中间层输出的特征通过投影层映射到G的输入空间,然后送入G进行重建。重建损失约束G的输出与原始真实图像一致。这要求G不仅能从随机隐码生成图像,还要能从D提取的真实图像特征重建原始图像
- 设计动机:标准GAN中G只学习从隐空间到图像的映射,不接触真实图像。让G重建真实图像为其提供了直接的像素级监督,有助于学习更真实的图像特征。同时建立了从D特征空间到G输入空间的映射桥梁
-
一致性约束(Consistency Criterion):
- 功能:确保G和D的隐空间之间存在一致的双向映射关系
- 核心思路:基于上述两个任务建立的双向映射(G→D隐码恢复 + D→G重建),施加一致性约束:D恢复隐码后再送入G应该恢复原图;G重建结果再送入D应该恢复正确的编码。这形成了一个循环一致性约束,类似CycleGAN的思路但应用于隐空间
- 设计动机:单独的恢复和重建任务可能各自找到不同的映射关系,一致性约束确保这两个映射是互逆的,建立了G和D之间紧密的结构化关系
损失函数 / 训练策略¶
总损失由三部分组成: - 对抗损失:标准GAN损失(hinge loss / non-saturating loss等) - 隐码恢复损失:L2距离约束D恢复的隐码与真实隐码的一致性 - 重建损失:L1或L2像素损失约束G重建真实图像的质量 - 一致性损失:循环一致性约束
训练保持标准的D和G交替更新。CLR-GAN范式是架构无关的,可以应用于不同的GAN架构(如DCGAN、StyleGAN等)。
实验关键数据¶
主实验¶
| 数据集 | 指标(FID↓) | 本文 | 基线GAN | 提升 |
|---|---|---|---|---|
| CIFAR-10 | FID | 显著改善 | 基线 | 31.22% |
| AFHQ-Cat | FID | 显著改善 | 基线 | 39.5% |
| 其他数据集 | FID | 显著改善 | 基线 | 一致提升 |
在多个数据集和多种GAN架构上,CLR-GAN均带来了显著的FID提升。
消融实验¶
| 配置 | FID | 说明 |
|---|---|---|
| 完整CLR-GAN | 最优 | 所有组件协同工作 |
| 无隐码恢复 | 退化 | 隐码恢复是核心贡献 |
| 无真实重建 | 退化 | 重建任务提供重要的额外监督 |
| 无一致性约束 | 退化 | 一致性约束确保双向映射的协调 |
| 不同GAN架构 | 一致提升 | 方法的架构无关性验证 |
关键发现¶
- CLR-GAN在不同规模的数据集和不同复杂度的GAN架构上均有效
- 训练过程更加稳定,对学习率等超参数的敏感性降低
- 生成图像的多样性也有所提升(不仅是质量更好,模式崩溃也减少了)
- 计算开销增加不大——额外的投影头和重建任务的参数量相对于整个网络较小
亮点与洞察¶
- 全新视角:将G和D视为互逆过程而非简单对手,通过隐空间一致性重新定义了GAN的训练目标,这是一个优雅的观察
- 架构无关:作为训练范式而非特定架构设计,可以即插即用地提升现有GAN的性能
- 显著效果:在CIFAR-10和AFHQ-Cat上分别实现31.22%和39.5%的FID提升,效果显著
- 训练稳定性:通过引入额外的结构化约束,有效缓解了GAN训练的不稳定性
局限与展望¶
- 额外的恢复和重建任务引入了新的超参数(各损失项的权重),需要调优
- 隐码恢复可能在高维隐空间(如StyleGAN的W+空间)中变得困难
- 重建任务在高分辨率图像上的计算开销需要关注
- 与近年来的扩散模型相比,改进后的GAN在图像质量上可能仍有差距
- 可以探索将CLR-GAN的思路扩展到条件生成(文本到图像等)任务
相关工作与启发¶
- GAN训练稳定性:谱归一化、梯度惩罚等关注D的正则化,CLR-GAN则从G-D关系角度切入
- BiGAN/ALI:早期工作也探索了GAN中的编码-解码对称性,但CLR-GAN的一致性约束更加明确
- CycleGAN:循环一致性在图像翻译中已被证明有效,CLR-GAN将其引入隐空间
- 启发:对抗训练中的不对称性问题在其他对抗框架中也存在,CLR-GAN的互逆约束思路可能具有更广泛的适用性
评分¶
- 新颖性: ⭐⭐⭐⭐ G和D互逆的观点有新意,隐空间一致性约束设计优雅
- 实验充分度: ⭐⭐⭐⭐ 多数据集多架构验证,消融充分
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述清楚
- 价值: ⭐⭐⭐ 在扩散模型主导的时代,GAN改进的边际价值有所降低,但思路本身有启发性
相关论文¶
- [ECCV 2024] Exploring Guided Sampling of Conditional GANs
- [ICCV 2025] Φ-GAN: Physics-Inspired GAN for Generating SAR Images Under Limited Data
- [ECCV 2024] Intrinsic Single-Image HDR Reconstruction
- [ECCV 2024] Superpixel-Informed Implicit Neural Representation for Multi-Dimensional Data
- [ECCV 2024] HiEI: A Universal Framework for Generating High-quality Emerging Images from Natural Images