MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans¶
会议: NeurIPS 2025
arXiv: 2506.20879
代码: GitHub (有)
领域: Image Generation / Benchmark
关键词: 多人图像生成, 身份保持, benchmark, 扩散模型, 区域隔离
一句话总结¶
提出 MultiHuman-Testbench,首个系统性评估多人图像生成的基准,包含 1800 个测试样本配对 5550 张人脸图像,以及基于匈牙利匹配的身份相似度等多维度评估指标,并提出区域隔离和隐式匹配技术提升现有方法性能。
研究背景与动机¶
领域现状: 当前文本到图像扩散模型可生成高质量图像,但同时生成多个人类(保持各自面部身份、执行指定动作、合理构图)仍是重大挑战。
现有痛点: 现有方法普遍存在身份混融(identity blending)、人数生成不准确、场景构图困难等问题。更关键的是,缺乏专门评估多人生成质量的标准化基准和明确指标。
核心矛盾: 现有基准要么关注单主体(如 ID 保持),要么关注通用文本到图像质量,要么关注多物体组合,但都未涉及多人生成的特殊复杂性。
本文目标: 建立全面的多人图像生成基准,提供标准化评估工具。
切入角度: 从数据(多样化人脸+精心设计的提示词+姿态条件)和指标(人数准确性+身份相似度+提示对齐+动作检测)两方面同时构建。
核心 idea: 构建涵盖4个任务维度、5个评估指标的标准化基准 + 提出区域隔离和隐式匹配技术改进现有方法。
方法详解¶
整体框架¶
MultiHuman-Testbench 分为两部分:(1) 基准构建——包含图像选择、提示词设计、姿态估计、指标定义;(2) 方法改进——提出 Unified Regional Isolation 和 Implicit Region Assignment 技术,无训练地增强现有多人生成模型。
关键设计¶
-
数据集构建:
- 人脸图像: 从 FFHQ、SFHQ、CelebaHQ 三个数据集(共约 520K 张)经多阶段筛选(MLLM 过滤不可识别人脸 → 去除多人脸图像 → Gemini Flash 2.0 标注年龄/种族/性别),再通过分层采样确保多样性,最终得到 5550 张人脸图像。年龄(16-35, 35-60, 60+)/种族(6个类别)/性别均衡分布。
- 提示词: Gemini Flash 2.0 生成 100 个描述 5 人做同一动作的提示词(简单提示),25 个不同人做不同动作的提示词(复杂提示),共 125 个独特提示词。每个提示词配 3 次随机人脸采样,形成 1800 个测试样本。
- 姿态条件: 从最佳生成结果和 Text-to-Pose 模型中获取,经人工精选,作为 Task 2 的区域先验。
-
评估指标体系:
- Count Accuracy (\(S_{\text{count}}\)): 人脸检测计数是否匹配参考人数,\(S_{\text{count}} = \delta_{MN}\)。
- Hungarian ID Similarity (\(S_{\text{id}}\)): 用 ArcFace 嵌入计算参考人脸与生成人脸的余弦相似度,用匈牙利算法做最优匹配后取平均: \(S_{\text{id}} = \frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{M} X_{ij} s_{ij}\)
- HPSv2 (\(S_{\text{hps}}\)): 文本-图像对齐的人类偏好分数。
- MLLM Action QA: 用 MLLM 问答评估简单动作(Action-S)和复杂动作(Action-C)的正确性。
- 统一指标: \(S_U = (S_{\text{id}} \times (S_{\text{align}})^2)^{1/3}\),其中 \(S_{\text{align}} = (S_{\text{hps}} + S_{\text{act}} + S_{\text{count}})/3\)。
-
Unified Regional Isolation(统一区域隔离): 针对 OmniGen 等统一多模态架构,修改自注意力掩码使每个参考图像 \(I_k\) 的 token 只关注对应的潜空间区域 \(\mathcal{R}_k\),防止不同身份之间的信息泄漏。图像 token 的注意力被限制为: \(A_{\text{iso}, ij} = 1 \quad \text{if } i \in \mathcal{D}_{\text{img}} \text{ and } (j \notin \mathcal{D}_{\text{latent}} \text{ or } j \in \mathcal{R}_k)\)
-
Implicit Region Assignment(隐式区域分配): 无需用户指定区域先验。对于 MH-OmniGen,在中间时步探测 backbone transformer 的自注意力图获取区域重叠信息,结合中间潜空间的分割掩码,用匈牙利匹配分配参考图像到对应区域。对于 MH-IR-Diffusion,使用 SAM2 分割生成的人脸区域提议,再通过 ArcFace 相似度 + 匈牙利匹配完成分配。
损失函数 / 训练策略¶
提出的区域隔离和隐式匹配方法是无训练的即插即用方法,不涉及额外训练,仅修改推理时的注意力掩码和区域分配策略。
实验关键数据¶
主实验¶
Task 1: 参考图像多人生成(野外):
| 模型 | Count↑ | Multi-ID↑ | HPS↑ | Action-S↑ | Action-C↑ | Unified↑ |
|---|---|---|---|---|---|---|
| GPT-Image-1 | 87.9 | 28.8 | 30.3 | 97.0 | 91.1 | 54.3 |
| LoRA(5 views) | 52.6 | 22.0 | 25.9 | 73.0 | 72.9 | 41.0 |
| UniPortrait | 58.5 | 44.2 | 25.9 | 76.2 | 67.2 | 51.7 |
| OmniGen | 60.5 | 49.4 | 26.2 | 87.5 | 71.3 | 59.2 |
| MH-OmniGen | 60.3 | 54.5 | 26.3 | 91.6 | 72.9 | 61.6 |
MH-OmniGen 在 Multi-ID 上比 OmniGen 提升 5.1 分,Action-S 提升 4.1 分,统一指标最优(61.6)。GPT-Image-1 在计数和动作评分最高但 ID 保持最差(28.8 vs 54.5)。
消融实验¶
Task 3: 无参考图像的 ID 一致多人生成:
| 模型 | Count↑ | Multi-ID↑ | HPS↑ | Action-S↑ |
|---|---|---|---|---|
| ConsiStory | 44.6 | 16.2 | 28.0 | 84.1 |
| DreamStory | 45.0 | 19.7 | 28.2 | 84.8 |
| IR-Diffusion | 62.4 | 27.6 | 29.4 | 86.3 |
| MH-IR-Diffusion | 62.6 | 33.3 | 29.2 | 85.9 |
MH-IR-Diffusion 在 Count 和 Multi-ID 上均最优,验证了区域隔离+匈牙利匹配的有效性。
关键发现¶
- 所有开源方法在野外多人生成中均未达到令人满意的标准: 即使最好的方法(MH-OmniGen 统一指标 61.6),视觉质量仍有大提升空间。
- 基础架构选择至关重要: 基于更强大 backbone(如 Flux、OmniGen-Phi3)的方法显著优于 SD1.5/SDXL 基础方法。
- 人数准确性是基础瓶颈: 即使最好的 T2I 模型 Flux 在 5 人场景中准确率仅 46.4%。
- ID 保持与动作准确性难以兼顾: GPT-Image-1 动作分最高但 ID 保持最差,体现了根本性的二难困境。
- 区域先验显著提升计数准确性: 使用姿态/框条件后 Count 指标大幅提升。
- 存在隐性偏见: 多个模型在年龄、种族、性别维度上表现出隐性偏差。
亮点与洞察¶
- 首个系统性基准: 填补了多人图像生成评估的空白,4个任务维度+5个指标的评估框架全面系统。
- 匈牙利 ID 相似度指标设计精巧: 通过最优匹配 + 惩罚缺失 ID 的方式,比简单平均相似度更合理。
- 无训练改进方案: 区域隔离和隐式区域分配是即插即用的,不需要额外训练,实用性强。
- 大规模模型评测: 评测了约 30 个模型,覆盖商用(GPT-Image-1)、微调(LoRA)、零样本等多种类型,提供了全面的行业现状视图。
局限与展望¶
- 当前所有方法在视觉质量上仍有很大提升空间,没有一个方法能一致通过"人眼测试"。
- 统一指标的权重设计(二次加权对齐项)是启发式的,可能不适用于所有应用场景。
- 评估中 MLLM Action QA 的可靠性依赖于 MLLM 本身的能力,可能存在评估偏差。
- 基准中的人脸图像虽经均衡采样,但种族/年龄分类本身基于 MLLM 自动标注,可能存在标注误差。
- 方法改进(MH-OmniGen)仅在 OmniGen 和 IR-Diffusion 上验证,对其他架构的适用性有待验证。
相关工作与启发¶
- 主体驱动生成: IP-Adapter、ControlNet 等辅助模块用于单主体 ID 保持,但多人场景下效果有限。
- 统一多模态模型: OmniGen、Show-O、GPT-Image-1 等将文本和视觉处理统一,展现了多人生成的最大潜力。
- 区域隔离: InstantFamily、Regional Prompting 等利用显式区域先验分隔多人,但限制了易用性。
- 启发: 多人图像生成仍是一个高度开放的挑战,基础模型的能力(特别是人数准确性)是瓶颈。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个专注多人生成的系统基准,匈牙利ID指标和区域隔离技术有创新
- 实验充分度: ⭐⭐⭐⭐⭐ 约30个模型×4个任务的大规模评测,数据量和覆盖面极为丰富
- 写作质量: ⭐⭐⭐⭐ 结构清晰,指标定义严谨,但内容较多略显冗长
- 价值: ⭐⭐⭐⭐ 对多人生成研究有重要推动作用,揭示了当前方法的关键瓶颈
相关论文¶
- [NeurIPS 2025] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
- [NeurIPS 2025] STEP: A Unified Spiking Transformer Evaluation Platform for Fair and Reproducible Benchmarking
- [ICCV 2025] Latent Expression Generation for Referring Image Segmentation and Grounding
- [ICML 2025] Sounding that Object: Interactive Object-Aware Image to Audio Generation
- [NeurIPS 2025] Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers