跳转至

CLR-GAN: Improving GANs Stability and Quality via Consistent Latent Representation and Reconstruction

会议: ECCV 2024
arXiv: 无
代码: https://github.com/Petecheco/CLR-GAN
领域: 图像生成
关键词: GAN训练稳定性, 隐空间一致性, 生成对抗网络, 图像生成质量, 判别器重建

一句话总结

本文提出了CLR-GAN训练范式,通过让判别器恢复生成器的预定义隐码、让生成器重建真实输入,建立了G和D隐空间之间的一致性约束,使GAN训练更公平稳定,在CIFAR10上FID提升31.22%,在AFHQ-Cat上提升39.5%。

研究背景与动机

领域现状:生成对抗网络(GAN)因其卓越的图像生成能力而受到广泛关注。代表性方法包括StyleGAN系列、BigGAN、ProjectedGAN等。GAN的训练本质是生成器G和判别器D之间的博弈——G试图生成以假乱真的图像,D试图区分真伪。近年来虽然有各种改进(谱归一化、渐进训练、正则化等),但GAN的训练不稳定性仍是核心瓶颈。

现有痛点:GAN训练的核心困难在于G和D之间的博弈是不公平的。在标准GAN框架中,D有明确的监督信号(真/假标签),而G只能通过D的梯度间接学习。这种不对称导致了几个具体问题:(1)D容易过于强大导致G崩溃(模式崩溃);(2)G过于强大时D又失去了提供有用梯度的能力;(3)训练过程极度敏感于超参数,不同数据集和架构需要大量调参。

核心矛盾:传统GAN训练中,G和D是彼此对立的两个独立网络,它们之间缺乏结构化的约束关系。D输出的判别信息(真/假概率)丢弃了大量关于生成/真实图像的结构信息。这种信息浪费和不对称性是训练不稳定的根源。

本文目标 (1)如何让G和D在训练过程中建立更紧密、更对称的关系;(2)如何利用D的特征空间来提供更丰富的训练信号。

切入角度:作者提出将G和D视为彼此的逆过程。G从隐码 \(z\) 映射到图像 \(x\),那么D应该能从图像 \(x\) 恢复出 \(z\);反过来,如果D能将真实图像映射到某个特征空间,G也应该能重建那些真实图像。通过这种互逆关系,G和D的隐空间建立了一致性约束。

核心 idea:让D额外承担恢复G的输入隐码的任务、让G额外承担重建D看到的真实图像的任务,通过隐空间一致性约束将G和D放在对等位置上训练。

方法详解

整体框架

CLR-GAN在标准GAN训练的基础上增加了两个额外任务:(1)隐码恢复——D接收G生成的假图像后,不仅输出真/假判别,还要恢复出G使用的输入隐码 \(z\);(2)真实图像重建——G接收D的中间特征(或某种编码),要能重建出对应的真实图像。通过这两个互补任务,G和D之间建立了双向的隐空间映射关系。

整体训练流程保持GAN的交替训练框架不变:D的损失 = 判别损失 + 隐码恢复损失;G的损失 = 对抗损失 + 重建损失 + 一致性损失。

关键设计

  1. 隐码恢复(Latent Code Restoration):

    • 功能:让判别器D具有从生成图像中恢复输入隐码 \(z\) 的能力
    • 核心思路:在D的网络末端添加一个额外的投影头,输出与 \(z\) 同维度的向量 \(z'\)。训练时对生成图像 \(G(z)\) 计算恢复损失 \(\|D_{proj}(G(z)) - z\|\),要求D恢复的隐码与G使用的原始隐码一致。这迫使D不仅要区分真假,还要理解G的生成过程和隐空间结构
    • 设计动机:标准GAN中D只输出一个标量(真/假),大量关于图像结构的信息被丢弃。隐码恢复迫使D保留更多结构信息,为G提供更丰富的梯度信号。同时,D要理解G的隐空间才能完成恢复任务,这隐含地限制了D过于"懒惰"地进行判别
  2. 真实图像重建(Real Image Reconstruction):

    • 功能:让生成器G具有从D的特征/编码重建真实图像的能力
    • 核心思路:将D中间层输出的特征通过投影层映射到G的输入空间,然后送入G进行重建。重建损失约束G的输出与原始真实图像一致。这要求G不仅能从随机隐码生成图像,还要能从D提取的真实图像特征重建原始图像
    • 设计动机:标准GAN中G只学习从隐空间到图像的映射,不接触真实图像。让G重建真实图像为其提供了直接的像素级监督,有助于学习更真实的图像特征。同时建立了从D特征空间到G输入空间的映射桥梁
  3. 一致性约束(Consistency Criterion):

    • 功能:确保G和D的隐空间之间存在一致的双向映射关系
    • 核心思路:基于上述两个任务建立的双向映射(G→D隐码恢复 + D→G重建),施加一致性约束:D恢复隐码后再送入G应该恢复原图;G重建结果再送入D应该恢复正确的编码。这形成了一个循环一致性约束,类似CycleGAN的思路但应用于隐空间
    • 设计动机:单独的恢复和重建任务可能各自找到不同的映射关系,一致性约束确保这两个映射是互逆的,建立了G和D之间紧密的结构化关系

损失函数 / 训练策略

总损失由三部分组成: - 对抗损失:标准GAN损失(hinge loss / non-saturating loss等) - 隐码恢复损失:L2距离约束D恢复的隐码与真实隐码的一致性 - 重建损失:L1或L2像素损失约束G重建真实图像的质量 - 一致性损失:循环一致性约束

训练保持标准的D和G交替更新。CLR-GAN范式是架构无关的,可以应用于不同的GAN架构(如DCGAN、StyleGAN等)。

实验关键数据

主实验

数据集 指标(FID↓) 本文 基线GAN 提升
CIFAR-10 FID 显著改善 基线 31.22%
AFHQ-Cat FID 显著改善 基线 39.5%
其他数据集 FID 显著改善 基线 一致提升

在多个数据集和多种GAN架构上,CLR-GAN均带来了显著的FID提升。

消融实验

配置 FID 说明
完整CLR-GAN 最优 所有组件协同工作
无隐码恢复 退化 隐码恢复是核心贡献
无真实重建 退化 重建任务提供重要的额外监督
无一致性约束 退化 一致性约束确保双向映射的协调
不同GAN架构 一致提升 方法的架构无关性验证

关键发现

  • CLR-GAN在不同规模的数据集和不同复杂度的GAN架构上均有效
  • 训练过程更加稳定,对学习率等超参数的敏感性降低
  • 生成图像的多样性也有所提升(不仅是质量更好,模式崩溃也减少了)
  • 计算开销增加不大——额外的投影头和重建任务的参数量相对于整个网络较小

亮点与洞察

  • 全新视角:将G和D视为互逆过程而非简单对手,通过隐空间一致性重新定义了GAN的训练目标,这是一个优雅的观察
  • 架构无关:作为训练范式而非特定架构设计,可以即插即用地提升现有GAN的性能
  • 显著效果:在CIFAR-10和AFHQ-Cat上分别实现31.22%和39.5%的FID提升,效果显著
  • 训练稳定性:通过引入额外的结构化约束,有效缓解了GAN训练的不稳定性

局限与展望

  • 额外的恢复和重建任务引入了新的超参数(各损失项的权重),需要调优
  • 隐码恢复可能在高维隐空间(如StyleGAN的W+空间)中变得困难
  • 重建任务在高分辨率图像上的计算开销需要关注
  • 与近年来的扩散模型相比,改进后的GAN在图像质量上可能仍有差距
  • 可以探索将CLR-GAN的思路扩展到条件生成(文本到图像等)任务

相关工作与启发

  • GAN训练稳定性:谱归一化、梯度惩罚等关注D的正则化,CLR-GAN则从G-D关系角度切入
  • BiGAN/ALI:早期工作也探索了GAN中的编码-解码对称性,但CLR-GAN的一致性约束更加明确
  • CycleGAN:循环一致性在图像翻译中已被证明有效,CLR-GAN将其引入隐空间
  • 启发:对抗训练中的不对称性问题在其他对抗框架中也存在,CLR-GAN的互逆约束思路可能具有更广泛的适用性

评分

  • 新颖性: ⭐⭐⭐⭐ G和D互逆的观点有新意,隐空间一致性约束设计优雅
  • 实验充分度: ⭐⭐⭐⭐ 多数据集多架构验证,消融充分
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述清楚
  • 价值: ⭐⭐⭐ 在扩散模型主导的时代,GAN改进的边际价值有所降低,但思路本身有启发性

相关论文