BEDLAM 2.0: Synthetic Humans and Cameras in Motion¶
会议: NeurIPS 2025
arXiv: 2511.14394
代码: Project
领域: 人体理解 / 合成数据 / 3D人体估计
关键词: SMPL-X, 合成数据集, 相机运动, 世界坐标人体估计, HPS
一句话总结¶
BEDLAM 数据集的重大升级版,新增多样化相机运动(合成+手持+头戴设备捕获)、更广的焦距范围(14-400mm)、更多样化体型/发型/鞋子/服装,总计 27K 序列 8M+ 帧,显著提升世界坐标 3D 人体估计的精度。
研究背景与动机¶
-
领域现状:BEDLAM 是首个仅用合成数据就能训练出 SOTA 3D HPS 回归器的数据集,已成为标准训练数据。但近年领域重心转向世界坐标下的 HPS 估计(需要同时估计人体和相机运动)。
-
现有痛点:
- BEDLAM 大部分是静态相机,焦距仅覆盖 52°/65° FOV,缺乏的相机运动多样性
- 体型多样性不足,高 BMI 身体少
- 所有人物光脚,与真实图像存在域差距
- 服装只有一个尺码,不适合胖的身体
-
头发使用卡片式模型,缺乏真实感
-
核心矛盾:世界坐标 HPS 估计需要丰富的相机运动训练数据,但真实数据几乎无法获取带 GT 相机和 3D 人体的配对数据。
-
本文要解决什么:提供一个显著更丰富、更真实的合成数据集,特别是相机运动和人物多样性方面。
-
核心idea一句话:通过精心设计的合成+捕获相机运动、鞋子、分级服装、线发模型扩展 BEDLAM,为世界坐标 HPS 提供强大训练数据。
方法详解¶
关键升级¶
- 相机多样性:
- 焦距 14-400mm(9% 有动态变焦)
- 合成运动:静态、平移、跟踪、推拉、轨道、缩放及组合,叠加 Perlin 噪声触感
-
捕获运动:手持手机/平板 + Apple Vision Pro 头戴设备,用户在虚拟场景中自由移动
-
人物多样性:
- 4643 个动作(vs BEDLAM 2311),增加瑜伽和对话手势
- 1615 个多样体型(BMI 18-41),重新采样使高 BMI 更多
- 40 种高质量线发模型,适配个体头型
- 182 套服装,50 套分级到 XS-6XL
-
新增 182 双鞋子(包含鞋底厚度位移)
-
规模:27K 序列,8M+ 帧,13.3M 边界框
实验关键数据¶
主实验¶
在多个 SOTA HPS 方法上对比 BEDLAM(B1) vs BEDLAM2.0(B2) 训练效果:
| 方法 | 训练数据 | 标准指标提升 | 世界坐标指标提升 |
|---|---|---|---|
| 各种 SOTA | B1 → B2 | 显著 | 更显著 |
| 各种 SOTA | B1+B2 | SOTA | SOTA |
关键发现¶
- B2 在所有标准指标上显著优于 B1,特别是世界坐标 HPS 估计
- B1+B2 组合达到机器学习世界坐标 HPS 的 SOTA
- 相机运动多样性是最大提升因素
亮点与洞察¶
- 捕获真实相机运动的创新方式:用 Apple Vision Pro 和手机在虚拟场景中导航,自然引入真实手持抖动和人类观察习惯
- 鞋子的工程实现:通过位移贴图将鞋子形状映射到光脚 SMPL-X 上,兼容 AMASS 动作且支持体型变化
- 分级服装:XS-6XL 使同一服装能实际穿在不同 BMI 的人体上
局限性 / 可改进方向¶
- 仅平底鞋,未处理高跟鞋(需要改变足部拓扑和姿势)
- 合成数据与真实图像仍存在域差距
- 未考虑多人交互、遮挡等复杂场景
相关工作与启发¶
- vs BEDLAM:全面升级,特别是相机运动和人物多样性
- vs PDHuman/BEDLAM-CC:它们处理多样焦距但不处理相机运动,B2 同时覆盖两者
- vs EgoGen/HumanVid:它们复用 BEDLAM 资产生成特定视角,B2 提供最全面的基础资产
评分¶
- 新颖性: ⭐⭐⭐ 主要是工程贡献而非理论突破,但鞋子和相机捕获方案有创新
- 实验充分度: ⭐⭐⭐⭐ 多个 SOTA 方法对比,详细的数据集统计分析