跳转至

UnrealPose: Leveraging Game Engine Kinematics for Large-Scale Synthetic Human Pose Data

会议: CVPR 2026
arXiv: 2601.00991
代码: 有
领域: 分割
关键词: synthetic data, Human Pose Estimation, Unreal Engine, Game Engine, Instance Segmentation

一句话总结

提出 UnrealPose-Gen,一个基于 Unreal Engine 5 的合成人体姿态数据生成管线,利用游戏引擎原生骨骼运动学(而非 SMPL)生成百万级标注数据集 UnrealPose-1M,提供 3D 关节、2D 关键点、遮挡标志、实例分割掩码和相机参数等完整标注。

研究背景与动机

准确的 3D 人体姿态数据获取一直是领域痛点,现有途径各有严重缺陷:

真实 3D 数据集受限:Human3.6M、3DPW 等依赖 marker-based 动捕系统,成本高、场景单一、动作多样性不足

2D 数据集缺少 3D 标注:COCO-Pose、MPII 提供丰富的 in-the-wild 标注,但缺少 3D 且存在标注者间不一致性

伪 3D 监督的偏差: - Lifting 方法(2D→3D):跨数据集泛化差,精度大幅下降 - 参数模型拟合(SMPL 系列):继承训练数据(CAESAR)的人口统计偏差,关节位置依赖拟合质量和回归器选择而非解剖学,某些方法产生弯曲膝盖或不自然的直腿

现有合成数据以 mesh 为中心:SURREAL、AGORA、BEDLAM 等都围绕 SMPL 参数设计,关节标签来自 mesh 回归而非运动学枢轴点,且复杂交互仍是未解决问题

核心洞察:游戏开发者已经花了几十年创建复杂的多人交互、物体操作和多样角色动作——计算机视觉社区何不直接利用这些丰富的游戏动画资产?

方法详解

整体框架

UnrealPose 包含两部分: - UnrealPose-Gen:UE5/MRQ(Movie Render Queue)数据生成管线 - UnrealPose-1M:用该管线生成的约 100 万帧标注数据集

关键设计

UnrealPose-Gen:生成管线

以相机为中心的架构

功能:完全在相机系统内构建标注管线,支持实时在线渲染(gameplay)和离线渲染(MRQ)。

核心思路:用户选择要追踪的角色资产(最多 255 个),系统从相机视角提取所有追踪角色的标注。支持任意相机参数(焦距、传感器尺寸、宽高比)和任意分辨率,标注系统会自动缩放投影坐标。

设计动机:统一架构确保在线/离线渲染的标注质量一致。在线渲染能力使得可以直接从 UE5 游戏中生成训练数据,这是前所未有的。

标注生成

每帧生成四类标注:

  1. 3D 关节位置:查询骨骼网格组件获取世界坐标系中所有指定关节位置,变换到相机坐标系。这些位置代表驱动动画的枢轴点(pivot points),与 SMPL 回归关节不同
  2. 2D 关键点投影:提供两组——3D 关节投影到 2D 的坐标 + 标准 COCO-Pose 17 关键点
  3. 逐关节可见性标志:从相机到世界点做射线追踪(line trace)确定遮挡状态
  4. 遮挡感知的人物检测标签:生成边界框和实例分割掩码,都感知遮挡——被遮挡部分会被裁切,边界框紧密包围可见部分,每人分配唯一 instance ID 并跨帧维护

数据过滤

两个质量控制标准: - 帧边界过滤:丢弃关键点投影到图像外的帧,确保所有保存帧的主体完全在画面内 - 时间冗余过滤:比较关节欧氏距离,丢弃变化不大的帧,减少近重复帧同时保持覆盖率

设计动机:管线可定制性强——用户修改几行代码即可导出骨骼中任意子集的关节(眼睛、耳朵、手指关节、面部特征点等),支持任何 UE 兼容的角色模型。

UnrealPose-1M:数据集

运动驱动器

支持两种模式平衡时序一致性和多样性覆盖:

  • 脚本模式:定义标记点,角色在标记点间移动并播放指定运动/空闲动画,产生时序连贯序列,适合视频级姿态估计方法
  • 随机模式:定义探索区域和动画目录,系统随机选择位置和动画,最大化姿态/视角/动作多样性,适合单帧方法

数据组成

序列类型 帧数 场景 角色 动作
连贯序列 x5 ~800K 5 场景(画廊+篮球场) 5 个 MetaHuman ~40 个脚本动作
随机序列 x3 ~170K 3 场景(城市公园) 5 个 MetaHuman ~100 个随机动画
多人帧 ~115K 2 个场景
总计 ~1M 8 个环境 5 个角色 多样

相机配置多样性:FOV 从 30° 到 90°,相机高度从地面到俯览,距离远近多样——涵盖标准基准中罕见的地面视角和陡峭俯角。

每帧标注:(i) 17 个 COCO 格式 2D 关键点 + 可见性标志;(ii) 16 个骨骼关节的 2D 投影 + 可见性标志;(iii) 16 个 3D 关节的世界/相机坐标;(iv) 每人边界框 + 分割掩码 + 唯一 ID。

数据划分:75/20/5 训练/验证/测试,帧间至少 100mm 欧氏距离(相机坐标系下所有关节之和)。

SMPL 无关的引擎原生标签

功能:直接从 UE 骨骼枢轴点提取关节标签,完全独立于 SMPL。

核心思路:使用 MetaHuman 及其骨骼关节而非 SMPL mesh 回归。任何 UE 兼容的骨骼和动画(商城资产、重定向 MoCap、甚至重定向到 UE rig 的 SMPL 动作)都能渲染并生成完整标注。

设计动机:消除 SMPL 的系统性偏差——(i) 关节位置依赖拟合和回归器而非运动学旋转中心;(ii) 固定拓扑难以建模松散衣物、头发和复杂接触;(iii) 体型空间反映训练扫描的人口统计(CAESAR 数据集 18-65 岁欧美人群);(iv) 复杂交互仍是开放问题。同时利用游戏行业数十年积累的交互丰富动画(格斗、对话、工具操作),这些场景在传统动捕中难以安全捕获。

损失函数 / 训练策略

本文是数据集/管线贡献,不涉及模型训练。验证实验使用现有预训练模型直接在合成数据上推理评估数据质量(real-to-synthetic 评估)。

实验关键数据

主实验

使用预训练模型(未在合成数据上微调)评估 real-to-synthetic 迁移,验证数据保真度:

模型 任务 AP AP50 AP75 AR MPJPE(mm) PA-MPJPE(mm)
HRNet-W48 Image→2D (Top-down) 0.883 0.990 0.980 0.896
DEKR-HRNet-W32 Image→2D (Bottom-up) 0.802 0.977 0.923 0.831
PoseAug 2D→3D Lifting 61.81 57.28
MeTRAbs Image→3D 104.16 111.41
Mask2Former (Swin-L) 实例分割 avg IoU=0.89

消融实验

PoseAug 逐关节 MPJPE 分布(2D→3D lifting):

关节区域 误差趋势 说明
躯干关节(颈、脊柱、髋) 低误差 低关节度、几何稳定
末端关节(肘、腕、膝、踝) 高误差 高关节度、遮挡频繁、外观多变
骨盆 最高原始误差 作为对齐根节点,反映残余全局偏移而非局部姿态质量

MeTRAbs Image→3D 逐关节分析

关节区域 误差趋势 说明
核心躯干关节(髋等) 低误差 纹理稳定、形状清晰,跨域影响小
末端关节(颈、腕、踝) 高误差 视角/遮挡/渲染细节差异导致跨域误差更大

关键发现

  1. 高 2D 关键点 AP(HRNet 0.883 AP):COCO 预训练模型在合成数据上表现强劲但未饱和,验证标注兼容性和图像真实感
  2. 合理的跨域 3D 误差:PoseAug 的 61.8mm MPJPE 在跨域研究的预期范围内,说明 2D-3D 标注几何一致性强
  3. 误差模式与真实数据一致:躯干低误差、末端高误差的解剖学模式在合成和真实数据集中表现一致,这是数据保真度的重要证据
  4. 实例分割高质量:Mask2Former 达到 0.89 avg IoU,场景元素(天空、花瓶、树木)也被正确标注,验证了 MetaHuman 渲染和环境的真实感
  5. 多人场景中遮挡和交互的处理保持了标注质量

亮点与洞察

  • 范式转换:从"苦苦合成人体交互"到"直接利用游戏行业已有的丰富动画资产",这是一个非常务实的洞察
  • SMPL 无关性是关键卖点——消除了参数模型的系统性偏差(人口统计、回归器依赖、拟合伪影)
  • 在线/离线双模式:不仅支持高质量离线渲染,还能在游戏运行时实时生成数据,开放了从现有 UE5 游戏中提取训练数据的可能性
  • 遮挡感知标注:关键点可见性标志和遮挡感知边界框/掩码,这些细节对实际应用至关重要但在现有合成数据集中常被忽略
  • 管线高度可定制——支持任何 UE 兼容骨骼、任意关节子集、灵活相机配置

局限与展望

  • 算力限制未做训练实验:只做了推理评估,未验证在 UnrealPose-1M 上训练模型再迁移到真实数据的效果,这是最关键的缺失实验
  • 角色多样性有限:仅 5 个 MetaHuman,虽然 MetaHuman Creator 可生成数千种角色
  • 静态相机:目前使用固定相机位置,不支持移动相机和动态内参,简单扩展但尚未实现
  • 手动集成:需要手动集成到 UE5 项目中,尚未打包为即插即用的 UE5 插件
  • 在线渲染未在真实游戏中验证:MRQ 离线渲染已验证,但从运行中的游戏实时提取数据的性能和质量尚未测试
  • 数据集规模受时间和算力约束:虽然管线理论上无限制,合成数据的 scaling law 仍是开放问题

评分

  • 新颖性: ⭐⭐⭐⭐ — 从游戏引擎原生骨骼取代 SMPL 的思路新颖且务实,但合成数据管线本身并非全新概念
  • 实验: ⭐⭐⭐ — 验证数据质量的实验设计合理但不够深入,缺少在合成数据上训练后迁移到真实数据的关键实验
  • 写作: ⭐⭐⭐⭐ — 动机阐述有力,与 SMPL 方法的对比论证清晰,技术细节充分
  • 价值: ⭐⭐⭐⭐ — 开源管线+数据集具有实际影响力,为社区提供了一条利用游戏资产的新路径,但需要后续工作验证训练效果

相关论文