跳转至

MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans

会议: NeurIPS 2025
arXiv: 2506.20879
代码: GitHub (有)
领域: Image Generation / Benchmark
关键词: 多人图像生成, 身份保持, benchmark, 扩散模型, 区域隔离

一句话总结

提出 MultiHuman-Testbench,首个系统性评估多人图像生成的基准,包含 1800 个测试样本配对 5550 张人脸图像,以及基于匈牙利匹配的身份相似度等多维度评估指标,并提出区域隔离和隐式匹配技术提升现有方法性能。

研究背景与动机

领域现状: 当前文本到图像扩散模型可生成高质量图像,但同时生成多个人类(保持各自面部身份、执行指定动作、合理构图)仍是重大挑战。

现有痛点: 现有方法普遍存在身份混融(identity blending)、人数生成不准确、场景构图困难等问题。更关键的是,缺乏专门评估多人生成质量的标准化基准和明确指标。

核心矛盾: 现有基准要么关注单主体(如 ID 保持),要么关注通用文本到图像质量,要么关注多物体组合,但都未涉及多人生成的特殊复杂性。

本文目标: 建立全面的多人图像生成基准,提供标准化评估工具。

切入角度: 从数据(多样化人脸+精心设计的提示词+姿态条件)和指标(人数准确性+身份相似度+提示对齐+动作检测)两方面同时构建。

核心 idea: 构建涵盖4个任务维度、5个评估指标的标准化基准 + 提出区域隔离和隐式匹配技术改进现有方法。

方法详解

整体框架

MultiHuman-Testbench 分为两部分:(1) 基准构建——包含图像选择、提示词设计、姿态估计、指标定义;(2) 方法改进——提出 Unified Regional Isolation 和 Implicit Region Assignment 技术,无训练地增强现有多人生成模型。

关键设计

  1. 数据集构建:

    • 人脸图像: 从 FFHQ、SFHQ、CelebaHQ 三个数据集(共约 520K 张)经多阶段筛选(MLLM 过滤不可识别人脸 → 去除多人脸图像 → Gemini Flash 2.0 标注年龄/种族/性别),再通过分层采样确保多样性,最终得到 5550 张人脸图像。年龄(16-35, 35-60, 60+)/种族(6个类别)/性别均衡分布。
    • 提示词: Gemini Flash 2.0 生成 100 个描述 5 人做同一动作的提示词(简单提示),25 个不同人做不同动作的提示词(复杂提示),共 125 个独特提示词。每个提示词配 3 次随机人脸采样,形成 1800 个测试样本。
    • 姿态条件: 从最佳生成结果和 Text-to-Pose 模型中获取,经人工精选,作为 Task 2 的区域先验。
  2. 评估指标体系:

    • Count Accuracy (\(S_{\text{count}}\)): 人脸检测计数是否匹配参考人数,\(S_{\text{count}} = \delta_{MN}\)
    • Hungarian ID Similarity (\(S_{\text{id}}\)): 用 ArcFace 嵌入计算参考人脸与生成人脸的余弦相似度,用匈牙利算法做最优匹配后取平均: \(S_{\text{id}} = \frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{M} X_{ij} s_{ij}\)
    • HPSv2 (\(S_{\text{hps}}\)): 文本-图像对齐的人类偏好分数。
    • MLLM Action QA: 用 MLLM 问答评估简单动作(Action-S)和复杂动作(Action-C)的正确性。
    • 统一指标: \(S_U = (S_{\text{id}} \times (S_{\text{align}})^2)^{1/3}\),其中 \(S_{\text{align}} = (S_{\text{hps}} + S_{\text{act}} + S_{\text{count}})/3\)
  3. Unified Regional Isolation(统一区域隔离): 针对 OmniGen 等统一多模态架构,修改自注意力掩码使每个参考图像 \(I_k\) 的 token 只关注对应的潜空间区域 \(\mathcal{R}_k\),防止不同身份之间的信息泄漏。图像 token 的注意力被限制为: \(A_{\text{iso}, ij} = 1 \quad \text{if } i \in \mathcal{D}_{\text{img}} \text{ and } (j \notin \mathcal{D}_{\text{latent}} \text{ or } j \in \mathcal{R}_k)\)

  4. Implicit Region Assignment(隐式区域分配): 无需用户指定区域先验。对于 MH-OmniGen,在中间时步探测 backbone transformer 的自注意力图获取区域重叠信息,结合中间潜空间的分割掩码,用匈牙利匹配分配参考图像到对应区域。对于 MH-IR-Diffusion,使用 SAM2 分割生成的人脸区域提议,再通过 ArcFace 相似度 + 匈牙利匹配完成分配。

损失函数 / 训练策略

提出的区域隔离和隐式匹配方法是无训练的即插即用方法,不涉及额外训练,仅修改推理时的注意力掩码和区域分配策略。

实验关键数据

主实验

Task 1: 参考图像多人生成(野外):

模型 Count↑ Multi-ID↑ HPS↑ Action-S↑ Action-C↑ Unified↑
GPT-Image-1 87.9 28.8 30.3 97.0 91.1 54.3
LoRA(5 views) 52.6 22.0 25.9 73.0 72.9 41.0
UniPortrait 58.5 44.2 25.9 76.2 67.2 51.7
OmniGen 60.5 49.4 26.2 87.5 71.3 59.2
MH-OmniGen 60.3 54.5 26.3 91.6 72.9 61.6

MH-OmniGen 在 Multi-ID 上比 OmniGen 提升 5.1 分,Action-S 提升 4.1 分,统一指标最优(61.6)。GPT-Image-1 在计数和动作评分最高但 ID 保持最差(28.8 vs 54.5)。

消融实验

Task 3: 无参考图像的 ID 一致多人生成:

模型 Count↑ Multi-ID↑ HPS↑ Action-S↑
ConsiStory 44.6 16.2 28.0 84.1
DreamStory 45.0 19.7 28.2 84.8
IR-Diffusion 62.4 27.6 29.4 86.3
MH-IR-Diffusion 62.6 33.3 29.2 85.9

MH-IR-Diffusion 在 Count 和 Multi-ID 上均最优,验证了区域隔离+匈牙利匹配的有效性。

关键发现

  • 所有开源方法在野外多人生成中均未达到令人满意的标准: 即使最好的方法(MH-OmniGen 统一指标 61.6),视觉质量仍有大提升空间。
  • 基础架构选择至关重要: 基于更强大 backbone(如 Flux、OmniGen-Phi3)的方法显著优于 SD1.5/SDXL 基础方法。
  • 人数准确性是基础瓶颈: 即使最好的 T2I 模型 Flux 在 5 人场景中准确率仅 46.4%。
  • ID 保持与动作准确性难以兼顾: GPT-Image-1 动作分最高但 ID 保持最差,体现了根本性的二难困境。
  • 区域先验显著提升计数准确性: 使用姿态/框条件后 Count 指标大幅提升。
  • 存在隐性偏见: 多个模型在年龄、种族、性别维度上表现出隐性偏差。

亮点与洞察

  • 首个系统性基准: 填补了多人图像生成评估的空白,4个任务维度+5个指标的评估框架全面系统。
  • 匈牙利 ID 相似度指标设计精巧: 通过最优匹配 + 惩罚缺失 ID 的方式,比简单平均相似度更合理。
  • 无训练改进方案: 区域隔离和隐式区域分配是即插即用的,不需要额外训练,实用性强。
  • 大规模模型评测: 评测了约 30 个模型,覆盖商用(GPT-Image-1)、微调(LoRA)、零样本等多种类型,提供了全面的行业现状视图。

局限与展望

  • 当前所有方法在视觉质量上仍有很大提升空间,没有一个方法能一致通过"人眼测试"。
  • 统一指标的权重设计(二次加权对齐项)是启发式的,可能不适用于所有应用场景。
  • 评估中 MLLM Action QA 的可靠性依赖于 MLLM 本身的能力,可能存在评估偏差。
  • 基准中的人脸图像虽经均衡采样,但种族/年龄分类本身基于 MLLM 自动标注,可能存在标注误差。
  • 方法改进(MH-OmniGen)仅在 OmniGen 和 IR-Diffusion 上验证,对其他架构的适用性有待验证。

相关工作与启发

  • 主体驱动生成: IP-Adapter、ControlNet 等辅助模块用于单主体 ID 保持,但多人场景下效果有限。
  • 统一多模态模型: OmniGen、Show-O、GPT-Image-1 等将文本和视觉处理统一,展现了多人生成的最大潜力。
  • 区域隔离: InstantFamily、Regional Prompting 等利用显式区域先验分隔多人,但限制了易用性。
  • 启发: 多人图像生成仍是一个高度开放的挑战,基础模型的能力(特别是人数准确性)是瓶颈。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个专注多人生成的系统基准,匈牙利ID指标和区域隔离技术有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 约30个模型×4个任务的大规模评测,数据量和覆盖面极为丰富
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,指标定义严谨,但内容较多略显冗长
  • 价值: ⭐⭐⭐⭐ 对多人生成研究有重要推动作用,揭示了当前方法的关键瓶颈

相关论文