Fair Benchmarking of Emerging One-Step Generative Models Against Multistep Diffusion and Flow Models¶

日期: 2026-03-15
arXiv: 2603.14186
领域: 图像生成
关键词: one-step generation, diffusion model, fair benchmark, MinMax Harmonic Mean, CFG

一句话总结¶

建立公平基准比较 8 个单步/多步生成模型，统一 CFG=7 + 双步评估（1步 vs 25步），提出 MMHM 综合指标平衡 FID/IS/CLIP/PickScore，揭示单步模型虽进步快但 25 步模型仍优，FID 优化与人类偏好存在系统性权衡。

领域现状: 单步生成模型（iMF、MeanFlow 等）声称接近甚至超越多步扩散/流模型，但不同论文使用不同 CFG、数据集和指标，公平比较不可能。
现有痛点: FID 优化可能牺牲文本对齐和人类偏好——FID 最低的模型可能生成的图看起来并不好。缺乏综合评估框架。
核心 idea: 统一实验条件（CFG=7，相同数据集），用 MMHM（MinMax Harmonic Mean）综合 4 个互补指标，建立公平可复现的评估基准。

8 个模型：4 个单步（iMF、MeanFlow 等）+ 4 个多步（SD3.5、FLUX.1 等）
统一条件：CFG=7、相同 prompt 集、相同评估代码
双步评估：每个模型在 1 步和 25 步下都评估，揭示步数扩展效果
MMHM 指标：\(\text{MMHM} = H(\text{norm}(\text{FID}), \text{norm}(\text{IS}), \text{norm}(\text{CLIP}), \text{norm}(\text{Pick}))\)

MinMax Harmonic Mean (MMHM):
- 做什么：综合衡量生成质量的多个维度
- 核心思路：对 FID/IS/CLIP Score/PickScore 做 MinMax 归一化后取调和平均
- 设计动机：调和平均惩罚任何单项的极端低分，防止 FID tuning 牺牲其他维度
步数扩展分析:
- 做什么：评估单步模型在多步推理下能否提升
- 核心思路：让单步模型也跑 25 步，比较 1步 vs 25步性能差距
- 关键发现：优秀的单步模型在步数增加时也受益，差距缩小

模型	步数/CFG	FID↓	IS↑	CLIP↑	Pick↑	MMHM↑
SoFlow (XL/2)	1/2	12.80	182.80	29.96	19.95	0.66
SoFlow (XL/2)	25/2	25.76	272.48	30.94	20.70	0.81
iMF (XL/2)	1/7	17.94	258.59	30.50	20.44	0.78
iMF (XL/2)	25/7	—	—	—	—	更高
SD3.5 Large	25/7	3.50	—	31.33	20.88	0.87
FLUX.1-dev	25/3.5	25.67	—	30.96	22.13	0.69

FID-CLIP/Pick 权衡被量化：SoFlow 1步 FID 最低 (12.80) 但 MMHM 只有 0.66；SD3.5 FID 3.50 但 MMHM 高达 0.87——FID 优化导致文本对齐和人类偏好下降
步数扩展效果显著：SoFlow 从 1步→25步，MMHM 从 0.66→0.81 (+22.7%)，IS 从 182→272——单步模型架构也适合多步推理
CFG 敏感性分析：不同模型的最优 CFG 不同，统一 CFG=7 暴露了部分模型在非最优 CFG 下的脆弱性
FLUX.1 的独特 trade-off：PickScore 最高 (22.13) 但 FID 较差 (25.67)——生成的图"好看"但不"真实"

MMHM 排名与 FID 排名不一致——证实了多指标综合评估的必要性。

MMHM 揭示被 FID 掩盖的质量差异：FID 最低的模型在人类偏好指标上可能不是最好的，MMHM 通过调和平均惩罚任何单项短板，更接近感知质量的真实排序
"单步模型已赶上多步"是错觉：在统一条件下，25 步模型仍显著优于 1 步。之前的论文通过选择性报告指标和不同 CFG 制造了"已追平"的假象
步数扩展是被低估的能力：好的单步模型不只是"快"——它的架构在多步推理下同样受益，这暗示单步训练可能是一种高效的多步模型初始化策略