MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans¶

会议: NeurIPS 2025
arXiv: 2506.20879
代码: GitHub (有)
领域: Image Generation / Benchmark
关键词: 多人图像生成, 身份保持, benchmark, 扩散模型, 区域隔离

一句话总结¶

提出 MultiHuman-Testbench，首个系统性评估多人图像生成的基准，包含 1800 个测试样本配对 5550 张人脸图像，以及基于匈牙利匹配的身份相似度等多维度评估指标，并提出区域隔离和隐式匹配技术提升现有方法性能。

研究背景与动机¶

领域现状: 当前文本到图像扩散模型可生成高质量图像，但同时生成多个人类（保持各自面部身份、执行指定动作、合理构图）仍是重大挑战。

现有痛点: 现有方法普遍存在身份混融（identity blending）、人数生成不准确、场景构图困难等问题。更关键的是，缺乏专门评估多人生成质量的标准化基准和明确指标。

核心矛盾: 现有基准要么关注单主体（如 ID 保持），要么关注通用文本到图像质量，要么关注多物体组合，但都未涉及多人生成的特殊复杂性。

本文目标: 建立全面的多人图像生成基准，提供标准化评估工具。

切入角度: 从数据（多样化人脸+精心设计的提示词+姿态条件）和指标（人数准确性+身份相似度+提示对齐+动作检测）两方面同时构建。

核心 idea: 构建涵盖4个任务维度、5个评估指标的标准化基准 + 提出区域隔离和隐式匹配技术改进现有方法。

方法详解¶

整体框架¶

MultiHuman-Testbench 分为两部分：(1) 基准构建——包含图像选择、提示词设计、姿态估计、指标定义；(2) 方法改进——提出 Unified Regional Isolation 和 Implicit Region Assignment 技术，无训练地增强现有多人生成模型。

关键设计¶

数据集构建:
- 人脸图像: 从 FFHQ、SFHQ、CelebaHQ 三个数据集（共约 520K 张）经多阶段筛选（MLLM 过滤不可识别人脸 → 去除多人脸图像 → Gemini Flash 2.0 标注年龄/种族/性别），再通过分层采样确保多样性，最终得到 5550 张人脸图像。年龄（16-35, 35-60, 60+）/种族（6个类别）/性别均衡分布。
- 提示词: Gemini Flash 2.0 生成 100 个描述 5 人做同一动作的提示词（简单提示），25 个不同人做不同动作的提示词（复杂提示），共 125 个独特提示词。每个提示词配 3 次随机人脸采样，形成 1800 个测试样本。
- 姿态条件: 从最佳生成结果和 Text-to-Pose 模型中获取，经人工精选，作为 Task 2 的区域先验。
评估指标体系:
- Count Accuracy (\(S_{\text{count}}\)): 人脸检测计数是否匹配参考人数，\(S_{\text{count}} = \delta_{MN}\)。
- Hungarian ID Similarity (\(S_{\text{id}}\)): 用 ArcFace 嵌入计算参考人脸与生成人脸的余弦相似度，用匈牙利算法做最优匹配后取平均: \(S_{\text{id}} = \frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{M} X_{ij} s_{ij}\)
- HPSv2 (\(S_{\text{hps}}\)): 文本-图像对齐的人类偏好分数。
- MLLM Action QA: 用 MLLM 问答评估简单动作（Action-S）和复杂动作（Action-C）的正确性。
- 统一指标: \(S_U = (S_{\text{id}} \times (S_{\text{align}})^2)^{1/3}\)，其中 \(S_{\text{align}} = (S_{\text{hps}} + S_{\text{act}} + S_{\text{count}})/3\)。
Unified Regional Isolation（统一区域隔离）: 针对 OmniGen 等统一多模态架构，修改自注意力掩码使每个参考图像 \(I_k\) 的 token 只关注对应的潜空间区域 \(\mathcal{R}_k\)，防止不同身份之间的信息泄漏。图像 token 的注意力被限制为: \(A_{\text{iso}, ij} = 1 \quad \text{if } i \in \mathcal{D}_{\text{img}} \text{ and } (j \notin \mathcal{D}_{\text{latent}} \text{ or } j \in \mathcal{R}_k)\)
Implicit Region Assignment（隐式区域分配）: 无需用户指定区域先验。对于 MH-OmniGen，在中间时步探测 backbone transformer 的自注意力图获取区域重叠信息，结合中间潜空间的分割掩码，用匈牙利匹配分配参考图像到对应区域。对于 MH-IR-Diffusion，使用 SAM2 分割生成的人脸区域提议，再通过 ArcFace 相似度 + 匈牙利匹配完成分配。

损失函数 / 训练策略¶

提出的区域隔离和隐式匹配方法是无训练的即插即用方法，不涉及额外训练，仅修改推理时的注意力掩码和区域分配策略。

实验关键数据¶

主实验¶

Task 1: 参考图像多人生成（野外）:

模型	Count↑	Multi-ID↑	HPS↑	Action-S↑	Action-C↑	Unified↑
GPT-Image-1	87.9	28.8	30.3	97.0	91.1	54.3
LoRA(5 views)	52.6	22.0	25.9	73.0	72.9	41.0
UniPortrait	58.5	44.2	25.9	76.2	67.2	51.7
OmniGen	60.5	49.4	26.2	87.5	71.3	59.2
MH-OmniGen	60.3	54.5	26.3	91.6	72.9	61.6

MH-OmniGen 在 Multi-ID 上比 OmniGen 提升 5.1 分，Action-S 提升 4.1 分，统一指标最优（61.6）。GPT-Image-1 在计数和动作评分最高但 ID 保持最差（28.8 vs 54.5）。

消融实验¶

Task 3: 无参考图像的 ID 一致多人生成:

模型	Count↑	Multi-ID↑	HPS↑	Action-S↑
ConsiStory	44.6	16.2	28.0	84.1
DreamStory	45.0	19.7	28.2	84.8
IR-Diffusion	62.4	27.6	29.4	86.3
MH-IR-Diffusion	62.6	33.3	29.2	85.9

MH-IR-Diffusion 在 Count 和 Multi-ID 上均最优，验证了区域隔离+匈牙利匹配的有效性。

关键发现¶

所有开源方法在野外多人生成中均未达到令人满意的标准: 即使最好的方法（MH-OmniGen 统一指标 61.6），视觉质量仍有大提升空间。
基础架构选择至关重要: 基于更强大 backbone（如 Flux、OmniGen-Phi3）的方法显著优于 SD1.5/SDXL 基础方法。
人数准确性是基础瓶颈: 即使最好的 T2I 模型 Flux 在 5 人场景中准确率仅 46.4%。
ID 保持与动作准确性难以兼顾: GPT-Image-1 动作分最高但 ID 保持最差，体现了根本性的二难困境。
区域先验显著提升计数准确性: 使用姿态/框条件后 Count 指标大幅提升。
存在隐性偏见: 多个模型在年龄、种族、性别维度上表现出隐性偏差。

亮点与洞察¶

首个系统性基准: 填补了多人图像生成评估的空白，4个任务维度+5个指标的评估框架全面系统。
匈牙利 ID 相似度指标设计精巧: 通过最优匹配 + 惩罚缺失 ID 的方式，比简单平均相似度更合理。
无训练改进方案: 区域隔离和隐式区域分配是即插即用的，不需要额外训练，实用性强。
大规模模型评测: 评测了约 30 个模型，覆盖商用（GPT-Image-1）、微调（LoRA）、零样本等多种类型，提供了全面的行业现状视图。

局限与展望¶

当前所有方法在视觉质量上仍有很大提升空间，没有一个方法能一致通过"人眼测试"。
统一指标的权重设计（二次加权对齐项）是启发式的，可能不适用于所有应用场景。
评估中 MLLM Action QA 的可靠性依赖于 MLLM 本身的能力，可能存在评估偏差。
基准中的人脸图像虽经均衡采样，但种族/年龄分类本身基于 MLLM 自动标注，可能存在标注误差。
方法改进（MH-OmniGen）仅在 OmniGen 和 IR-Diffusion 上验证，对其他架构的适用性有待验证。

评分¶

新颖性: ⭐⭐⭐⭐ 首个专注多人生成的系统基准，匈牙利ID指标和区域隔离技术有创新
实验充分度: ⭐⭐⭐⭐⭐ 约30个模型×4个任务的大规模评测，数据量和覆盖面极为丰富
写作质量: ⭐⭐⭐⭐ 结构清晰，指标定义严谨，但内容较多略显冗长
价值: ⭐⭐⭐⭐ 对多人生成研究有重要推动作用，揭示了当前方法的关键瓶颈