跳转至

MEGA: Masked Generative Autoencoder for Human Mesh Recovery

会议: CVPR 2025
arXiv: 2405.18839
代码: https://g-fiche.github.io/research-pages/mega/ (项目页)
领域: 3D视觉
关键词: 人体网格恢复, 遮掩生成建模, 多输出预测, 自监督预训练, VQ-VAE

一句话总结

MEGA 提出了一种基于遮掩生成建模的人体网格恢复方法,通过将人体 mesh 离散化为 token 序列,在自监督预训练后进行图像条件生成,同时支持确定性单次预测和随机多输出生成模式,在两种模式下均达到 SOTA 性能。

研究背景与动机

领域现状:从单张 RGB 图像恢复 3D 人体网格(HMR)是经典的计算机视觉问题。当前方法主要分为两类:(1) 单输出回归方法(HMR、CLIFF、VQ-HPS 等),直接预测一个最可能的 mesh;(2) 多输出概率方法(ProHMR、Diff-HMR 等),生成多个可能的 mesh 来应对深度模糊性。

现有痛点:HMR 本质上是一个病态问题——无穷多个 3D 解释可以对应同一个 2D 观测,特别是在遮挡场景下更为严重。单输出方法忽视了这种模糊性,倾向于预测最常见的姿态。多输出概率方法虽然可以生成多样预测,但面临精度-多样性的权衡——没有一个多输出方法能在单次预测精度上与最新的单输出方法竞争。

核心矛盾:多样性和精度之间的 trade-off:增加预测多样性通常以牺牲单次预测精度为代价。

本文目标 能否设计一个统一框架,在确定性模式下达到 SOTA 单次精度,在随机模式下生成多样且高质量的多输出预测?

切入角度:借鉴 NLP 和图像生成中遮掩生成建模的成功,将 HMR 重新定义为离散 token 序列的条件生成问题。通过 Mesh-VQ-VAE 将人体 mesh 离散化,然后用类似 BERT/MAE 的遮掩-预测策略进行训练。

核心 idea:将 HMR 建模为图像条件下的遮掩 token 生成任务,通过自监督预训练学习 3D 人体先验,再在两种推理模式下统一实现高精度和多样性。

方法详解

整体框架

MEGA 基于 encoder-decoder Transformer 架构。首先使用预训练的 Mesh-VQ-VAE 将人体 mesh 编码为 N=54 个离散 token(每个对应身体的特定部位,codebook 大小 S=512)。训练分两阶段:(1) 自监督预训练——在动捕数据上学习从部分可见 token 重建完整 mesh token,无需图像数据;(2) 监督训练——加入图像 embedding 作为条件,训练模型在随机遮掩 token 的情况下预测完整 mesh。推理时支持确定性模式(一次前向预测所有 token)和随机模式(迭代采样)。

关键设计

  1. Mesh Token 化与自监督预训练:

    • 功能:将连续的 3D mesh 表示转化为离散 token,并利用大规模动捕数据学习 3D 人体先验
    • 核心思路:使用 Mesh-VQ-VAE 将 6890 个顶点的 SMPL mesh 编码为 54 个 token,每个 token 从 512 大小的 codebook 中选取。预训练阶段参照 VQ-MAE 思路,使用可变遮掩率 \(M = \lfloor N \cos(\pi\tau/2) \rfloor\)\(\tau \sim U[0,1)\)),编码器处理可见 token,解码器预测被遮掩 token,仅用交叉熵损失监督。在 AMASS 动捕数据上训练 500 epoch
    • 设计动机:(1) 离散 token 表示天然限制预测在有效人体空间内,避免非人形 mesh;(2) 预训练在无图像配对数据下利用海量动捕数据学习人体运动学先验,消融实验表明这贡献了 2.5-6.0mm PVE 的提升;(3) 可变遮掩率对随机模式至关重要,因为迭代生成每步可见 token 数不同
  2. 图像条件遮掩生成训练:

    • 功能:学习从图像特征条件下预测随机遮掩的 mesh token
    • 核心思路:在预训练基础上,将图像特征(通过 HRNet 或 ViT 提取)线性映射为 D=1024 维 embedding 序列,与 mesh token embedding 拼接后送入解码器。训练时 mesh token 使用与预训练相同的余弦遮掩率调度,图像 embedding 保持完全可见。监督仅用交叉熵损失——与使用 3D 关节、2D 重投影、SMPL 参数等多种损失的传统方法相比,这极大简化了训练。另外一个 MLP 从图像特征预测全局 6D 旋转和透视相机参数
    • 设计动机:保持与预训练一致的遮掩率调度很重要(消融显示 100% 遮掩训练略降性能),因为这让自监督和监督阶段共享相同的训练分布
  3. 确定性与随机双模式推理:

    • 功能:灵活支持高精度单输出或多样化多输出场景
    • 核心思路:确定性模式——从全遮掩序列出发,单次前向传播预测所有 54 个 token(取 argmax)。此模式不需要编码器,只用解码器,模型大小大幅减小(\(B_e=12 > B_d=4\))。随机模式——迭代 T 步生成。第 t 步预测 \(n_t - n_{t-1}\) 个新 token,其中 \(n_t = \lfloor N(1-\cos(\pi t / 2T)) \rfloor\)。使用 Gumbel-max 采样从预测分布中采样候选 token,再从候选中采样固定数量设为可见。重复 Q 次得到 Q 个不同预测
    • 设计动机:确定性模式首次实现了"在 MAE 中丢弃编码器只用解码器",之前 MAE 工作都是丢弃解码器用编码器做下游任务。随机模式通过 Gumbel 采样引入随机性,每次运行产生不同 mesh,天然建模了 HMR 的多解性

损失函数 / 训练策略

预训练阶段:仅交叉熵损失,AMASS 数据集,500 epoch。HMR 训练:先在 MSCOCO 上 100 epoch,再在混合数据集(MSCOCO + Human3.6M + MPI-INF-3DHP + MPII)上 10 epoch。旋转和相机参数用旋转矩阵欧氏距离 + 2D 关节重投影 L1 损失。4 块 A100 GPU 约 2.5 天完成全部训练。

实验关键数据

主实验

确定性模式 (3DPW 数据集):

方法 Backbone PVE↓ MPJPE↓ PA-MPJPE↓
CLIFF HRNet-w48 87.6 73.9 46.4
VQ-HPS HRNet-w48 84.8 71.1 45.2
MEGA HRNet-w48 81.6 68.5 44.1
HMR2.0 ViT-H 84.1 70.0 44.5
MEGA ViT-H 80.0 67.5 41.0

随机模式 (3DPW 数据集, ResNet-50 backbone):

方法 PVE (Q=1) PVE (Q=25) 改进比
Diff-HMR 114.6 109.8 4.2%
ProHMR - - (84.0 MPJPE) 13.4%
MEGA 101.6 87.5 13.9%
MEGA det 90.6 - -

消融实验

配置 PVE (3DPW)↓ PVE (EMDB)↓ 说明
MEGA (完整) 81.6 107.9 余弦遮掩率调度
Linear masking 86.5 118.7 线性遮掩率,性能下降
Full mask 81.8 110.3 100% 遮掩训练,略降
w/o pre-training + full mask 84.1 113.9 无预训练,PVE 升高 2.5/6.0mm

关键发现

  • 自监督预训练是 MEGA 的关键组件,去掉后 PVE 在 3DPW 上升高 2.5mm、EMDB 上升高 6.0mm,说明动捕数据中的人体先验对 HMR 至关重要
  • 余弦遮掩率调度优于线性调度,与 MAE 中发现的"高遮掩率有利于学习"的结论一致
  • 在遮挡数据集 3DPW-OCC 上,MEGA (HRNet) 达到 PVE=93.8mm,超越所有专为遮挡设计的方法(如 SEFD 97.1mm),体现了 mesh token 间 self-attention 的优势——可见部分推断被遮挡部分
  • 随机模式下 Q=25 时 PVE 可降至 87.5mm(vs 确定性 90.6mm),说明多输出采样能发现比确定性预测更好的解

亮点与洞察

  • 首次在 MAE 中丢弃编码器:传统 MAE 丢弃解码器用编码器做下游任务,MEGA 反其道行之在确定性模式下丢弃编码器只用解码器,因为全遮掩输入无需编码器处理。这是一个很有启发性的架构设计选择
  • 超简单的训练损失:仅用交叉熵损失就超越了使用 5-6 种损失的传统 HMR 方法,说明好的表示空间(离散 token)可以大幅简化训练目标
  • 遮挡鲁棒性:Token 级别的遮掩-预测训练天然赋予了模型"从部分推断整体"的能力,可以迁移到其他需要处理遮挡的任务

局限与展望

  • 依赖预训练的 Mesh-VQ-VAE 的重建质量——codebook 的量化误差直接传递为训练目标的噪声
  • 随机模式需要多次前向传播(T 步 × Q 次),实时性受限
  • 仅验证了单人场景,多人场景下如何扩展是开放问题
  • 全局旋转和相机参数仍使用确定性回归预测,未纳入概率建模

相关工作与启发

  • vs VQ-HPS: 同样使用 Mesh-VQ-VAE token 化,但 VQ-HPS 是确定性分类映射。MEGA 引入遮掩生成建模,支持多输出且精度更高(PVE 81.6 vs 84.8)
  • vs Diff-HMR: Diff-HMR 用扩散模型生成多样 mesh 但单次精度差(PVE=114.6)。MEGA 单次预测(PVE=101.6)已远超 Diff-HMR 的 25 次采样最佳(109.8)
  • vs HMR2.0/TokenHMR: 这些是最新的 ViT backbone 方法,MEGA 在同等 backbone 下均超越

评分

  • 新颖性: ⭐⭐⭐⭐ 遮掩生成建模首次应用于 HMR,双模式推理设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖确定性/随机两种模式、多个基准、详尽消融、遮挡评估
  • 写作质量: ⭐⭐⭐⭐ 思路清晰,方法阐述详尽
  • 价值: ⭐⭐⭐⭐ 统一了单输出和多输出 HMR 范式,为后续研究提供了新思路

相关论文