跳转至

Fair Benchmarking of Emerging One-Step Generative Models Against Multistep Diffusion and Flow Models

日期: 2026-03-15
arXiv: 2603.14186
领域: 图像生成
关键词: one-step generation, diffusion model, fair benchmark, MinMax Harmonic Mean, CFG

一句话总结

建立公平基准比较 8 个单步/多步生成模型,统一 CFG=7 + 双步评估(1步 vs 25步),提出 MMHM 综合指标平衡 FID/IS/CLIP/PickScore,揭示单步模型虽进步快但 25 步模型仍优,FID 优化与人类偏好存在系统性权衡。

研究背景与动机

  1. 领域现状: 单步生成模型(iMF、MeanFlow 等)声称接近甚至超越多步扩散/流模型,但不同论文使用不同 CFG、数据集和指标,公平比较不可能。

  2. 现有痛点: FID 优化可能牺牲文本对齐和人类偏好——FID 最低的模型可能生成的图看起来并不好。缺乏综合评估框架。

  3. 核心 idea: 统一实验条件(CFG=7,相同数据集),用 MMHM(MinMax Harmonic Mean)综合 4 个互补指标,建立公平可复现的评估基准。

方法详解

评估框架

  • 8 个模型:4 个单步(iMF、MeanFlow 等)+ 4 个多步(SD3.5、FLUX.1 等)
  • 统一条件:CFG=7、相同 prompt 集、相同评估代码
  • 双步评估:每个模型在 1 步和 25 步下都评估,揭示步数扩展效果
  • MMHM 指标\(\text{MMHM} = H(\text{norm}(\text{FID}), \text{norm}(\text{IS}), \text{norm}(\text{CLIP}), \text{norm}(\text{Pick}))\)

关键设计

  1. MinMax Harmonic Mean (MMHM):

    • 做什么:综合衡量生成质量的多个维度
    • 核心思路:对 FID/IS/CLIP Score/PickScore 做 MinMax 归一化后取调和平均
    • 设计动机:调和平均惩罚任何单项的极端低分,防止 FID tuning 牺牲其他维度
  2. 步数扩展分析:

    • 做什么:评估单步模型在多步推理下能否提升
    • 核心思路:让单步模型也跑 25 步,比较 1步 vs 25步性能差距
    • 关键发现:优秀的单步模型在步数增加时也受益,差距缩小

实验关键数据

主实验:ImageNet 验证集上 8 个模型的公平比较

模型 步数/CFG FID↓ IS↑ CLIP↑ Pick↑ MMHM↑
SoFlow (XL/2) 1/2 12.80 182.80 29.96 19.95 0.66
SoFlow (XL/2) 25/2 25.76 272.48 30.94 20.70 0.81
iMF (XL/2) 1/7 17.94 258.59 30.50 20.44 0.78
iMF (XL/2) 25/7 更高
SD3.5 Large 25/7 3.50 31.33 20.88 0.87
FLUX.1-dev 25/3.5 25.67 30.96 22.13 0.69

关键发现

  1. FID-CLIP/Pick 权衡被量化:SoFlow 1步 FID 最低 (12.80) 但 MMHM 只有 0.66;SD3.5 FID 3.50 但 MMHM 高达 0.87——FID 优化导致文本对齐和人类偏好下降
  2. 步数扩展效果显著:SoFlow 从 1步→25步,MMHM 从 0.66→0.81 (+22.7%),IS 从 182→272——单步模型架构也适合多步推理
  3. CFG 敏感性分析:不同模型的最优 CFG 不同,统一 CFG=7 暴露了部分模型在非最优 CFG 下的脆弱性
  4. FLUX.1 的独特 trade-off:PickScore 最高 (22.13) 但 FID 较差 (25.67)——生成的图"好看"但不"真实"

消融:MMHM vs 单指标排名

排名标准 第1名 第2名 第3名
仅 FID SoFlow (12.80) iMF SD3.5
仅 PickScore FLUX.1 (22.13) SD3.5 SoFlow
MMHM SD3.5 (0.87) SoFlow-25s (0.81) iMF (0.78)

MMHM 排名与 FID 排名不一致——证实了多指标综合评估的必要性。

亮点与洞察

  • MMHM 揭示被 FID 掩盖的质量差异:FID 最低的模型在人类偏好指标上可能不是最好的,MMHM 通过调和平均惩罚任何单项短板,更接近感知质量的真实排序
  • "单步模型已赶上多步"是错觉:在统一条件下,25 步模型仍显著优于 1 步。之前的论文通过选择性报告指标和不同 CFG 制造了"已追平"的假象
  • 步数扩展是被低估的能力:好的单步模型不只是"快"——它的架构在多步推理下同样受益,这暗示单步训练可能是一种高效的多步模型初始化策略

局限性 / 可改进方向

  • 评估贡献为主,未提出新模型或训练策略
  • MMHM 的等权调和平均假设四个指标同等重要——实际中人类偏好可能应有更高权重
  • 未包含视频生成、3D 生成等更复杂的模态
  • 仅用 ImageNet 验证集——更多样的 prompt 集可能改变排名
  • CFG=7 的统一选择对部分模型不利,"最优 CFG 下的比较"也应呈现

评分

  • 新颖性: ⭐⭐⭐⭐ MMHM 综合指标和统一评估框架有实质贡献
  • 实验充分度: ⭐⭐⭐⭐ 8 模型 × 多步数 × 多 CFG × 4 指标的系统评估
  • 写作质量: ⭐⭐⭐⭐ 评估方法论清晰
  • 价值: ⭐⭐⭐⭐ 为后续单步模型论文建立了公平可复现的标准化评估条件