Image Generation Diversity Issues and How to Tame Them¶

会议: CVPR 2025
arXiv: 2411.16171
代码: https://github.com/MischaD/beyondfid
领域: 扩散模型 / 图像生成评估
关键词: 生成多样性, 图像检索评分, 扩散模型评估, 多样性感知生成, 特征提取器评估

一句话总结¶

本文揭示了当前扩散模型存在严重的多样性不足问题（最先进模型仅覆盖训练数据 77% 的多样性），提出了基于图像检索的 Image Retrieval Score (IRS) 作为可解释的多样性度量指标，并引入 Diversity-Aware Diffusion Models (DiADM) 在不损失生成质量的前提下提升多样性。

研究背景与动机¶

领域现状：生成模型已能产出与真实数据几乎无法区分的高质量图像，但多样性问题长期被忽视。与质量问题不同，多样性不足很难从视觉上发现，需要专门的度量指标。现有指标如 FID 主要衡量质量和分布距离，Precision/Recall 虽涉及多样性但依赖超参数且不可解释。

现有痛点：(1) 用于计算现有指标的特征提取器（Inception v3、DINOv2 等）在特征空间中存在"坍缩"，即使对真实数据也无法正确度量多样性（存在 measurement gap）；(2) 现有多样性指标不可解释——FID 的一个点差距意味着什么？Recall 饱和在 0.8 是否意味着多样性足够？(3) 提升多样性的方法通常以牺牲生成质量为代价（噪声扰动、降低保真度）。

核心矛盾：多样性与保真度长期被认为是 trade-off 关系，现有方法无法解耦这两个属性。同时，缺乏一个可靠且可解释的度量指标来量化多样性。

本文目标 (1) 设计可解释的多样性度量指标；(2) 量化现有模型的多样性缺口；(3) 在不损失质量的前提下提升多样性。

切入角度：将多样性评估框架为图像检索问题——用合成图像检索训练图像，已检索到的训练图像比例即为多样性。结合 Coupon Collector 问题的概率模型给出统计估计和置信区间。

核心 idea：用图像检索方式度量生成模型的多样性，并通过伪无条件特征作为条件输入实现多样性与保真度的解耦。

方法详解¶

整体框架¶

方法包含两部分：(1) IRS 度量指标——对每个合成图像，在特征空间中找到最近的训练图像，统计被"检索到"的训练图像去重后的比例；基于 Coupon Collector 问题的概率模型，用少量样本推断模型在无限采样下的多样性上限 \(\text{IRS}_\infty\) 及其置信区间。(2) DiADM 模型——用预训练特征提取器为训练图像计算伪标签，作为条件输入替代占位符标签，实现多样性与保真度的解耦。

关键设计¶

Image Retrieval Score (IRS):
- 功能：提供可解释、无超参数的生成多样性度量
- 核心思路：定义"已学习"图像集 \(\mathcal{X}_{learned} = \{x_t \in \mathcal{X} \mid \exists x_t' \in \mathcal{X}': x_t = \arg\min_{x_t} \mathcal{P}(x_t, x_t')\}\)，IRS 即为 \(N_{learned}/N_{train}\)。关键创新在于利用 Stirling 数和 Coupon Collector 问题的概率分布 \(P(k,n,s) = \frac{\text{Stir}(n,k) \cdot s!}{(s-k)! \cdot s^n}\)，从少量样本（远小于训练集）推断最大似然估计 \(\text{IRS}_\infty\) 及上下界。为消除特征提取器坍缩导致的系统偏差，引入调整步骤 \(\text{IRS}_{\infty,a} = \text{IRS}_{\infty,snth}/\text{IRS}_{\infty,real}\)
- 设计动机：现有 Recall 指标在所有类别都存在时就饱和在 0.8，无法区分 80% 和 100% 多样性。Coverage 依赖超参数且高估低多样性场景。IRS 在 ImageNet 受控实验中与真实类别比例呈线性相关，直觉清晰
特征提取器评估与选择:
- 功能：找到最适合度量多样性的特征空间
- 核心思路：在 9 种主流特征提取器（BYOL、CLIP、ConvNeXt、DINOv2、Inception、MAE 等）上评估真实数据的图像检索性能。通过集成投票（5 个以上模型对同一检索结果达成共识）建立伪标准答案。衡量每个提取器与集成共识的一致率，最终选择 SwAV 作为默认特征提取器
- 设计动机：所有特征提取器对真实数据都存在度量误差（measurement gap），说明用它们计算的 FID、Precision/Recall 等指标天然不可靠。通过调整步骤消除系统偏差，同时选择与集成共识最一致的提取器，最大化可解释性
Diversity-Aware Diffusion Models (DiADM):
- 功能：在不损失 FID 的前提下，提升无条件扩散模型的生成多样性
- 核心思路：用预训练 Inception v3 为每张训练图像提取特征作为伪标签，替代无条件生成中通常使用的占位符标签。架构上基于 EDM-2-XS，修改标签维度匹配特征维度。采样时直接用训练图像的特征作为条件查询，确保模型覆盖整个训练分布。本质上让每个训练样本成为自己的一个"类"，实现了多样性与保真度的解耦
- 设计动机：无条件生成缺乏引导信号，模型倾向于收敛到分布的高密度区域。通过伪标签提供实例级条件，指导模型覆盖长尾样本

损失函数 / 训练策略¶

DiADM 使用标准扩散损失训练，仅修改条件输入。训练预算为 574 A40 GPU 小时（仅为 EDM 完整训练的 1/10）。采样时使用训练数据特征作为条件。

实验关键数据¶

主实验¶

模型	FID ↓	IRS∞,a ↑(条件)	IRS∞,a ↑(无条件)
ADM-256	6.01	0.44	0.20
DiT-XL/2-256	22.15	0.23	0.33
MAR-H-256	3.11	0.64	0.38
EDM-2-XL-512	2.92	0.77	0.03
EDM-2-XXL-512	2.87	0.75	0.05
LDM-256	26.09	0.16	0.16

即使最好的条件模型 EDM-2-XL 也仅达到训练数据 77% 的多样性。无条件生成的多样性更是急剧下降。

消融实验（DiADM 效果）¶

数据集	EDM FID	DiADM FID	EDM IRS∞,a	DiADM IRS∞,a
ImageNet-512	51.59	22.28	0.09	0.15
FFHQ	40.92	6.24	0.23	1.51
ChestX-ray14	24.29	6.76	0.19	1.08
CelebV-HQ	68.41	13.64	0.18	0.69

DiADM 在所有数据集上同时改善了 FID 和 IRS，证明多样性与质量可以解耦。在 FFHQ 上 IRS 超过 1.0，说明伪条件能引导模型覆盖训练分布之外的区域。

关键发现¶

所有现有特征提取器对真实数据的多样性度量都严重不足（measurement gap），这意味着 FID 等基于这些提取器的指标天然存在偏差
模型规模与多样性正相关：EDM 从 XS 到 XL，IRS 从 46% 增长到 77%，而 FID 差距仅 0.9 分
条件生成比无条件生成多样性好得多（IRS 0.77 vs 0.03），说明引导信号对多样性至关重要
文本到图像模型也存在严重的多样性偏差，例如 Deepfloyd 在不指定性别时生成的多样性仅约 50%

亮点与洞察¶

将多样性评估框架为图像检索问题极其优雅：Coupon Collector 概率模型提供了少量样本即可估计全局多样性的数学基础，且输出值具有直观的物理含义（"模型学了百分之多少的数据"）
measurement gap 的发现具有警示意义：揭示了社区广泛使用的特征提取器在多样性评估上的系统性缺陷，质疑了大量基于 FID、Recall 的结论的可靠性
DiADM 的伪标签思路简单有效：用预训练特征作为自监督的"类标签"，将无条件生成转化为实例级条件生成，在概念上将多样性与保真度完全解耦。这个思路可以推广到视频生成、3D 生成等领域

局限与展望¶

少量样本下 IRS 的随机波动较大，微小的 IRS 差异不具统计意义
DiADM 实验仅在受限计算预算（1/10 完整训练）下进行，完整训练的效果未知
伪标签使用的 Inception v3 本身存在特征坍缩问题，更好的特征提取器可能进一步提升效果
仅在无条件生成上验证 DiADM，扩展到文本条件生成更有实际价值但需解决条件冲突问题
IRS 依赖 nearest neighbor 检索，大规模数据集上的计算效率需要优化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 问题定义新颖（量化多样性缺口）、方法新颖（IRS + DiADM）、发现重要（measurement gap）
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 9 种特征提取器、5 个数据集、十余种生成模型，受控验证设计精巧
写作质量: ⭐⭐⭐⭐ 理论推导清晰，但部分符号定义略显繁琐
价值: ⭐⭐⭐⭐⭐ 指出了社区广泛忽视的多样性问题，提供了可靠的度量工具和改进方案