BEDLAM 2.0: Synthetic Humans and Cameras in Motion¶

会议: NeurIPS 2025
arXiv: 2511.14394
代码: Project
领域: 人体理解 / 合成数据 / 3D人体估计
关键词: SMPL-X, 合成数据集, 相机运动, 世界坐标人体估计, HPS

一句话总结¶

BEDLAM 数据集的重大升级版，新增多样化相机运动（合成+手持+头戴设备捕获）、更广的焦距范围（14-400mm）、更多样化体型/发型/鞋子/服装，总计 27K 序列 8M+ 帧，显著提升世界坐标 3D 人体估计的精度。

领域现状：BEDLAM 是首个仅用合成数据就能训练出 SOTA 3D HPS 回归器的数据集，已成为标准训练数据。但近年领域重心转向世界坐标下的 HPS 估计（需要同时估计人体和相机运动）。
现有痛点：
BEDLAM 大部分是静态相机，焦距仅覆盖 52°/65° FOV，缺乏的相机运动多样性
体型多样性不足，高 BMI 身体少
所有人物光脚，与真实图像存在域差距
服装只有一个尺码，不适合胖的身体
头发使用卡片式模型，缺乏真实感
核心矛盾：世界坐标 HPS 估计需要丰富的相机运动训练数据，但真实数据几乎无法获取带 GT 相机和 3D 人体的配对数据。
本文要解决什么：提供一个显著更丰富、更真实的合成数据集，特别是相机运动和人物多样性方面。
核心idea一句话：通过精心设计的合成+捕获相机运动、鞋子、分级服装、线发模型扩展 BEDLAM，为世界坐标 HPS 提供强大训练数据。

在多个 SOTA HPS 方法上对比 BEDLAM(B1) vs BEDLAM2.0(B2) 训练效果：

方法	训练数据	标准指标提升	世界坐标指标提升
各种 SOTA	B1 → B2	显著	更显著
各种 SOTA	B1+B2	SOTA	SOTA