跳转至

BEDLAM 2.0: Synthetic Humans and Cameras in Motion

会议: NeurIPS 2025
arXiv: 2511.14394
代码: Project
领域: 人体理解 / 合成数据 / 3D人体估计
关键词: SMPL-X, 合成数据集, 相机运动, 世界坐标人体估计, HPS

一句话总结

BEDLAM 数据集的重大升级版,新增多样化相机运动(合成+手持+头戴设备捕获)、更广的焦距范围(14-400mm)、更多样化体型/发型/鞋子/服装,总计 27K 序列 8M+ 帧,显著提升世界坐标 3D 人体估计的精度。

研究背景与动机

  1. 领域现状:BEDLAM 是首个仅用合成数据就能训练出 SOTA 3D HPS 回归器的数据集,已成为标准训练数据。但近年领域重心转向世界坐标下的 HPS 估计(需要同时估计人体和相机运动)。

  2. 现有痛点

  3. BEDLAM 大部分是静态相机,焦距仅覆盖 52°/65° FOV,缺乏的相机运动多样性
  4. 体型多样性不足,高 BMI 身体少
  5. 所有人物光脚,与真实图像存在域差距
  6. 服装只有一个尺码,不适合胖的身体
  7. 头发使用卡片式模型,缺乏真实感

  8. 核心矛盾:世界坐标 HPS 估计需要丰富的相机运动训练数据,但真实数据几乎无法获取带 GT 相机和 3D 人体的配对数据。

  9. 本文要解决什么:提供一个显著更丰富、更真实的合成数据集,特别是相机运动和人物多样性方面。

  10. 核心idea一句话:通过精心设计的合成+捕获相机运动、鞋子、分级服装、线发模型扩展 BEDLAM,为世界坐标 HPS 提供强大训练数据。

方法详解

关键升级

  1. 相机多样性
  2. 焦距 14-400mm(9% 有动态变焦)
  3. 合成运动:静态、平移、跟踪、推拉、轨道、缩放及组合,叠加 Perlin 噪声触感
  4. 捕获运动:手持手机/平板 + Apple Vision Pro 头戴设备,用户在虚拟场景中自由移动

  5. 人物多样性

  6. 4643 个动作(vs BEDLAM 2311),增加瑜伽和对话手势
  7. 1615 个多样体型(BMI 18-41),重新采样使高 BMI 更多
  8. 40 种高质量线发模型,适配个体头型
  9. 182 套服装,50 套分级到 XS-6XL
  10. 新增 182 双鞋子(包含鞋底厚度位移)

  11. 规模:27K 序列,8M+ 帧,13.3M 边界框

实验关键数据

主实验

在多个 SOTA HPS 方法上对比 BEDLAM(B1) vs BEDLAM2.0(B2) 训练效果:

方法 训练数据 标准指标提升 世界坐标指标提升
各种 SOTA B1 → B2 显著 更显著
各种 SOTA B1+B2 SOTA SOTA

关键发现

  • B2 在所有标准指标上显著优于 B1,特别是世界坐标 HPS 估计
  • B1+B2 组合达到机器学习世界坐标 HPS 的 SOTA
  • 相机运动多样性是最大提升因素

亮点与洞察

  • 捕获真实相机运动的创新方式:用 Apple Vision Pro 和手机在虚拟场景中导航,自然引入真实手持抖动和人类观察习惯
  • 鞋子的工程实现:通过位移贴图将鞋子形状映射到光脚 SMPL-X 上,兼容 AMASS 动作且支持体型变化
  • 分级服装:XS-6XL 使同一服装能实际穿在不同 BMI 的人体上

局限性 / 可改进方向

  • 仅平底鞋,未处理高跟鞋(需要改变足部拓扑和姿势)
  • 合成数据与真实图像仍存在域差距
  • 未考虑多人交互、遮挡等复杂场景

相关工作与启发

  • vs BEDLAM:全面升级,特别是相机运动和人物多样性
  • vs PDHuman/BEDLAM-CC:它们处理多样焦距但不处理相机运动,B2 同时覆盖两者
  • vs EgoGen/HumanVid:它们复用 BEDLAM 资产生成特定视角,B2 提供最全面的基础资产

评分

  • 新颖性: ⭐⭐⭐ 主要是工程贡献而非理论突破,但鞋子和相机捕获方案有创新
  • 实验充分度: ⭐⭐⭐⭐ 多个 SOTA 方法对比,详细的数据集统计分析