跳转至

WildAvatar: Learning In-the-Wild 3D Avatars from the Web

会议: CVPR 2025
arXiv: 2407.02165
代码: https://wildavatar.github.io/
领域: 人体理解 / 3D 人体重建
关键词: 3D人体avatar, 野外数据集, 自动标注, SMPL估计, 大规模数据

一句话总结

提出自动化标注管线和过滤协议,从 YouTube 视频中构建了 WildAvatar——一个包含 10,000+ 人体对象的大规模野外 3D avatar 创建数据集,规模比此前数据集大 10 倍以上,并在 EMDB 基准上超越现有 SMPL 标注方法。

研究背景与动机

  1. 领域现状:3D 人体 Avatar 创建在 VR/AR、电影制作、元宇宙等领域有广泛应用。随着 NeRF 的出现,从 2D 观测重建 3D avatar 并合成新视角/姿态的方法取得了显著进展。但现有方法主要在实验室数据集上验证。

  2. 现有痛点:当前 avatar 数据集主要依赖高成本实验室系统——多视角相机阵列、深度传感器、IMU、激光扫描仪、专业演员和灯光台等。这些条件(a)成本高昂,难以规模化;(b)场景多样性有限,与真实世界存在域差距;(c)最大的数据集(如 HUMBI 772 人)比起真实世界的多样性仍微不足道。

  3. 核心矛盾:网络上存在大量免费的真实世界人体运动视频,但这些视频质量参差不齐,且缺乏 avatar 创建所需的精确标注(SMPL 参数、相机参数、人体分割掩码)。少数尝试收集野外数据的方法(如 TikTok 数据集)严重依赖人工筛选,无法规模化。

  4. 本文目标:设计一套全自动的标注管线和过滤协议,从网络视频中高质量地提取人体运动数据,构建大规模野外 avatar 数据集。

  5. 切入角度:利用 YOLO、SAM、HMR2.0 等最新模型组成的四阶段管线自动标注,再用多重一致性检查协议自动过滤低质量样本。

  6. 核心 idea:用流水线式的自动化方法替代人工干预,通过"标注 + 过滤"两步走策略,以极低成本从 YouTube 抽取高质量人体数据,实现 10x 规模提升。

方法详解

整体框架

管线分为四个阶段:Stage I 检测和跟踪人体边界框 → Stage II 提取人体分割掩码(SAM)→ Stage III 单帧 SMPL 和相机参数粗估计 → Stage IV 跨帧精炼 SMPL 和相机参数(时序平滑)。在四阶段之间穿插四套过滤协议,自动剔除不合格视频。

关键设计

  1. 四阶段自动标注管线:

    • 功能:从原始网络视频自动获取高质量标注(边界框、人体掩码、SMPL 参数、相机参数)
    • 核心思路:Stage I 使用 YOLO 等检测人体边界框并跟踪;Stage II 用 SAM(Segment Anything)基于边界框输入生成高质量人体分割掩码,无需人工选择静态背景帧;Stage III 用 HMR2.0 等逐帧估计 SMPL 参数;Stage IV 通过梯度下降在视频序列上精炼 SMPL 和相机参数,引入 2D 关键点和 SAM 掩码作为额外监督,提升时序一致性
    • 设计动机:每个阶段使用当前最佳方法,且后一阶段的精炼弥补了前一阶段的粗糙估计。特别是 Stage IV 的时序平滑使四肢(脚、手臂、头部)对齐精度大幅提升
  2. 四套自动过滤协议:

    • 功能:自动剔除不合格视频片段,保证数据集质量
    • 核心思路:
      • Protocol I(清晰身体与显著运动):过滤检测/姿态估计低置信度的视频,剔除遮挡严重、运动幅度过小的片段
      • Protocol II(标注专家集成):使用多个不同的 SOTA 模型(检测、2D 姿态、SMPL 估计)的预测结果,计算标准差,只保留多模型一致性高的视频
      • Protocol III(2D 关键点一致性):将 SMPL 的 3D 关键点投影到 2D 与姿态估计结果对比,计算 PCK 值,剔除低一致性样本
      • Protocol IV(SMPL 与 SAM 掩码一致性):检查 SMPL 投影掩码是否被 SAM 掩码覆盖(SMPL 是裸体,SAM 包含衣服),剔除 overlap 过低的样本
    • 设计动机:网络视频质量参差不齐,无 ground truth 可用,多重交叉验证是确保质量的关键。四套协议逐步收紧,从 465,801 个候选保留到 10,647 个高质量片段
  3. 数据集统计与多样性分析:

    • 功能:验证数据集在姿态、视角、服装等方面的多样性优势
    • 核心思路:通过 t-SNE 可视化体姿分布发现 WildAvatar 的姿态远比实验室数据集多样;相机视角不再局限于固定角度;引入 SSIOU(SMPL 与分割掩码的反向 IOU)衡量服装丰富度,WildAvatar 服装种类显著超过实验室数据
    • 设计动机:证明规模化和野外采集能弥补实验室数据集的"场景贫乏"问题

损失函数 / 训练策略

  • Stage IV 的 SMPL 精炼使用 2D 关键点重投影误差 + SAM 掩码对齐损失 + 时序平滑约束进行梯度下降优化
  • 标注管线本身不需要训练新模型,全部使用预训练的 off-the-shelf 模型

实验关键数据

主实验

EMDB 基准上的 SMPL 标注质量对比:

方法 PA-MPJPE↓ MPJPE↓ PVE↓
HMR2.0 60.6 98.0 120.3
HybrIK 65.6 103.0 122.2
CLIFF 68.1 103.3 128.0
本文管线 59.9 94.9 115.5

过滤协议逐步提升质量:

过滤阶段 PCK↑ SOIOU↓ 保留片段数
无过滤 0.282 0.760 465,801
+Protocol I 0.762 0.214 43,824
+Protocol II 0.839 0.146 25,392
+Protocol III 0.882 0.129 12,482
+Protocol IV 0.902 0.052 10,647
+Stage IV 精炼 0.921 0.028 10,647

消融实验

配置 说明
Protocol I 最关键 过滤掉 90% 低质量视频,PCK 从 0.282 跳到 0.762
Protocol II PCK 再提 10.1%,多专家集成效果显著
Stage IV 精炼 不增减样本数但 PCK 从 0.902 提到 0.921
最终 PCK=0.921 仅比 3DPW GT 的 0.937 低 1.7%

关键发现

  • Protocol I 是最关键的预处理步骤,剔除了大量无人体/遮挡严重/运动微小的视频
  • 多专家集成(Protocol II)对标注可靠性贡献巨大,PCK 提升 10.1%
  • Stage IV 的时序精炼不改变样本数量但显著提升标注质量
  • 最终数据集 PCK=0.921,与 3DPW 人工标注的 0.937 接近
  • 在 generalizable avatar 方法上训练,比实验室数据集提升高达 7%

亮点与洞察

  • 全自动化管线设计:从 YOLO/SAM/HMR2.0 到时序精炼,全程无需人工干预,成本极低。这种"off-the-shelf模型组合 + 多重验证"的范式可推广到其他数据采集任务
  • 过滤协议的巧妙设计:没有 ground truth 的情况下,用"多模型交叉一致性"替代传统评估,是一种通用的数据质量保证策略
  • SMPL-SAM 互验思路:利用 SMPL(裸体投影)应被 SAM(着装轮廓)覆盖的先验约束做质量检查,非常巧妙
  • 规模是关键:证明了 10x 规模数据可带来 generalizable 方法高达 7% 提升,再次印证了"scaling law"

局限与展望

  • 数据来源于 YouTube,可能存在版权和隐私问题,仅发布视频 ID 而非原始视频
  • 自动管线仍有上限——无法处理严重遮挡、极端姿态或运动模糊的情况
  • 标注质量受限于 SMPL 模型本身的表达能力,无法建模精细手部/面部
  • 数据集中的服装多样性虽优于实验室,但仍受 YouTube 内容分布偏差影响
  • 未来可结合 SMPL-X 或更精细的参数化模型提升标注粒度

相关工作与启发

  • vs NeuMan: NeuMan 同时分解 avatar 和场景,但需要精确的全局对齐,仅适用于 6 个场景。WildAvatar 通过纯粹聚焦人体区域避开了场景解耦的难题,实现了万级规模
  • vs TikTok 数据集: TikTok 有 340 人但依赖人工筛选且视角变化小。WildAvatar 全自动+10k 规模+自由视角,全面超越
  • vs ZJU-MoCap: 实验室 9 人/6 场景 vs 野外 10k+ 人。WildAvatar 证明了大规模野外数据可以弥补(甚至超越)精密实验室设备的不足

评分

  • 新颖性: ⭐⭐⭐ 方法上是已有工具的组合,主要贡献在数据集本身
  • 实验充分度: ⭐⭐⭐⭐ EMDB 基准验证、逐步过滤消融、下游任务验证都很全面
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,数据集统计和可视化做得很好
  • 价值: ⭐⭐⭐⭐⭐ 填补了大规模野外 avatar 数据集的空白,对整个领域有重要推动作用

相关论文