MEGA: Masked Generative Autoencoder for Human Mesh Recovery¶
会议: CVPR 2025
arXiv: 2405.18839
代码: https://g-fiche.github.io/research-pages/mega/ (项目页)
领域: 3D视觉
关键词: 人体网格恢复, 遮掩生成建模, 多输出预测, 自监督预训练, VQ-VAE
一句话总结¶
MEGA 提出了一种基于遮掩生成建模的人体网格恢复方法,通过将人体 mesh 离散化为 token 序列,在自监督预训练后进行图像条件生成,同时支持确定性单次预测和随机多输出生成模式,在两种模式下均达到 SOTA 性能。
研究背景与动机¶
领域现状:从单张 RGB 图像恢复 3D 人体网格(HMR)是经典的计算机视觉问题。当前方法主要分为两类:(1) 单输出回归方法(HMR、CLIFF、VQ-HPS 等),直接预测一个最可能的 mesh;(2) 多输出概率方法(ProHMR、Diff-HMR 等),生成多个可能的 mesh 来应对深度模糊性。
现有痛点:HMR 本质上是一个病态问题——无穷多个 3D 解释可以对应同一个 2D 观测,特别是在遮挡场景下更为严重。单输出方法忽视了这种模糊性,倾向于预测最常见的姿态。多输出概率方法虽然可以生成多样预测,但面临精度-多样性的权衡——没有一个多输出方法能在单次预测精度上与最新的单输出方法竞争。
核心矛盾:多样性和精度之间的 trade-off:增加预测多样性通常以牺牲单次预测精度为代价。
本文目标 能否设计一个统一框架,在确定性模式下达到 SOTA 单次精度,在随机模式下生成多样且高质量的多输出预测?
切入角度:借鉴 NLP 和图像生成中遮掩生成建模的成功,将 HMR 重新定义为离散 token 序列的条件生成问题。通过 Mesh-VQ-VAE 将人体 mesh 离散化,然后用类似 BERT/MAE 的遮掩-预测策略进行训练。
核心 idea:将 HMR 建模为图像条件下的遮掩 token 生成任务,通过自监督预训练学习 3D 人体先验,再在两种推理模式下统一实现高精度和多样性。
方法详解¶
整体框架¶
MEGA 基于 encoder-decoder Transformer 架构。首先使用预训练的 Mesh-VQ-VAE 将人体 mesh 编码为 N=54 个离散 token(每个对应身体的特定部位,codebook 大小 S=512)。训练分两阶段:(1) 自监督预训练——在动捕数据上学习从部分可见 token 重建完整 mesh token,无需图像数据;(2) 监督训练——加入图像 embedding 作为条件,训练模型在随机遮掩 token 的情况下预测完整 mesh。推理时支持确定性模式(一次前向预测所有 token)和随机模式(迭代采样)。
关键设计¶
-
Mesh Token 化与自监督预训练:
- 功能:将连续的 3D mesh 表示转化为离散 token,并利用大规模动捕数据学习 3D 人体先验
- 核心思路:使用 Mesh-VQ-VAE 将 6890 个顶点的 SMPL mesh 编码为 54 个 token,每个 token 从 512 大小的 codebook 中选取。预训练阶段参照 VQ-MAE 思路,使用可变遮掩率 \(M = \lfloor N \cos(\pi\tau/2) \rfloor\)(\(\tau \sim U[0,1)\)),编码器处理可见 token,解码器预测被遮掩 token,仅用交叉熵损失监督。在 AMASS 动捕数据上训练 500 epoch
- 设计动机:(1) 离散 token 表示天然限制预测在有效人体空间内,避免非人形 mesh;(2) 预训练在无图像配对数据下利用海量动捕数据学习人体运动学先验,消融实验表明这贡献了 2.5-6.0mm PVE 的提升;(3) 可变遮掩率对随机模式至关重要,因为迭代生成每步可见 token 数不同
-
图像条件遮掩生成训练:
- 功能:学习从图像特征条件下预测随机遮掩的 mesh token
- 核心思路:在预训练基础上,将图像特征(通过 HRNet 或 ViT 提取)线性映射为 D=1024 维 embedding 序列,与 mesh token embedding 拼接后送入解码器。训练时 mesh token 使用与预训练相同的余弦遮掩率调度,图像 embedding 保持完全可见。监督仅用交叉熵损失——与使用 3D 关节、2D 重投影、SMPL 参数等多种损失的传统方法相比,这极大简化了训练。另外一个 MLP 从图像特征预测全局 6D 旋转和透视相机参数
- 设计动机:保持与预训练一致的遮掩率调度很重要(消融显示 100% 遮掩训练略降性能),因为这让自监督和监督阶段共享相同的训练分布
-
确定性与随机双模式推理:
- 功能:灵活支持高精度单输出或多样化多输出场景
- 核心思路:确定性模式——从全遮掩序列出发,单次前向传播预测所有 54 个 token(取 argmax)。此模式不需要编码器,只用解码器,模型大小大幅减小(\(B_e=12 > B_d=4\))。随机模式——迭代 T 步生成。第 t 步预测 \(n_t - n_{t-1}\) 个新 token,其中 \(n_t = \lfloor N(1-\cos(\pi t / 2T)) \rfloor\)。使用 Gumbel-max 采样从预测分布中采样候选 token,再从候选中采样固定数量设为可见。重复 Q 次得到 Q 个不同预测
- 设计动机:确定性模式首次实现了"在 MAE 中丢弃编码器只用解码器",之前 MAE 工作都是丢弃解码器用编码器做下游任务。随机模式通过 Gumbel 采样引入随机性,每次运行产生不同 mesh,天然建模了 HMR 的多解性
损失函数 / 训练策略¶
预训练阶段:仅交叉熵损失,AMASS 数据集,500 epoch。HMR 训练:先在 MSCOCO 上 100 epoch,再在混合数据集(MSCOCO + Human3.6M + MPI-INF-3DHP + MPII)上 10 epoch。旋转和相机参数用旋转矩阵欧氏距离 + 2D 关节重投影 L1 损失。4 块 A100 GPU 约 2.5 天完成全部训练。
实验关键数据¶
主实验¶
确定性模式 (3DPW 数据集):
| 方法 | Backbone | PVE↓ | MPJPE↓ | PA-MPJPE↓ |
|---|---|---|---|---|
| CLIFF | HRNet-w48 | 87.6 | 73.9 | 46.4 |
| VQ-HPS | HRNet-w48 | 84.8 | 71.1 | 45.2 |
| MEGA | HRNet-w48 | 81.6 | 68.5 | 44.1 |
| HMR2.0 | ViT-H | 84.1 | 70.0 | 44.5 |
| MEGA | ViT-H | 80.0 | 67.5 | 41.0 |
随机模式 (3DPW 数据集, ResNet-50 backbone):
| 方法 | PVE (Q=1) | PVE (Q=25) | 改进比 |
|---|---|---|---|
| Diff-HMR | 114.6 | 109.8 | 4.2% |
| ProHMR | - | - (84.0 MPJPE) | 13.4% |
| MEGA | 101.6 | 87.5 | 13.9% |
| MEGA det | 90.6 | - | - |
消融实验¶
| 配置 | PVE (3DPW)↓ | PVE (EMDB)↓ | 说明 |
|---|---|---|---|
| MEGA (完整) | 81.6 | 107.9 | 余弦遮掩率调度 |
| Linear masking | 86.5 | 118.7 | 线性遮掩率,性能下降 |
| Full mask | 81.8 | 110.3 | 100% 遮掩训练,略降 |
| w/o pre-training + full mask | 84.1 | 113.9 | 无预训练,PVE 升高 2.5/6.0mm |
关键发现¶
- 自监督预训练是 MEGA 的关键组件,去掉后 PVE 在 3DPW 上升高 2.5mm、EMDB 上升高 6.0mm,说明动捕数据中的人体先验对 HMR 至关重要
- 余弦遮掩率调度优于线性调度,与 MAE 中发现的"高遮掩率有利于学习"的结论一致
- 在遮挡数据集 3DPW-OCC 上,MEGA (HRNet) 达到 PVE=93.8mm,超越所有专为遮挡设计的方法(如 SEFD 97.1mm),体现了 mesh token 间 self-attention 的优势——可见部分推断被遮挡部分
- 随机模式下 Q=25 时 PVE 可降至 87.5mm(vs 确定性 90.6mm),说明多输出采样能发现比确定性预测更好的解
亮点与洞察¶
- 首次在 MAE 中丢弃编码器:传统 MAE 丢弃解码器用编码器做下游任务,MEGA 反其道行之在确定性模式下丢弃编码器只用解码器,因为全遮掩输入无需编码器处理。这是一个很有启发性的架构设计选择
- 超简单的训练损失:仅用交叉熵损失就超越了使用 5-6 种损失的传统 HMR 方法,说明好的表示空间(离散 token)可以大幅简化训练目标
- 遮挡鲁棒性:Token 级别的遮掩-预测训练天然赋予了模型"从部分推断整体"的能力,可以迁移到其他需要处理遮挡的任务
局限与展望¶
- 依赖预训练的 Mesh-VQ-VAE 的重建质量——codebook 的量化误差直接传递为训练目标的噪声
- 随机模式需要多次前向传播(T 步 × Q 次),实时性受限
- 仅验证了单人场景,多人场景下如何扩展是开放问题
- 全局旋转和相机参数仍使用确定性回归预测,未纳入概率建模
相关工作与启发¶
- vs VQ-HPS: 同样使用 Mesh-VQ-VAE token 化,但 VQ-HPS 是确定性分类映射。MEGA 引入遮掩生成建模,支持多输出且精度更高(PVE 81.6 vs 84.8)
- vs Diff-HMR: Diff-HMR 用扩散模型生成多样 mesh 但单次精度差(PVE=114.6)。MEGA 单次预测(PVE=101.6)已远超 Diff-HMR 的 25 次采样最佳(109.8)
- vs HMR2.0/TokenHMR: 这些是最新的 ViT backbone 方法,MEGA 在同等 backbone 下均超越
评分¶
- 新颖性: ⭐⭐⭐⭐ 遮掩生成建模首次应用于 HMR,双模式推理设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖确定性/随机两种模式、多个基准、详尽消融、遮挡评估
- 写作质量: ⭐⭐⭐⭐ 思路清晰,方法阐述详尽
- 价值: ⭐⭐⭐⭐ 统一了单输出和多输出 HMR 范式,为后续研究提供了新思路
相关论文¶
- [CVPR 2025] PromptHMR: Promptable Human Mesh Recovery
- [CVPR 2025] HeatFormer: A Neural Optimizer for Multiview Human Mesh Recovery
- [ICCV 2025] MaskHand: Generative Masked Modeling for Robust Hand Mesh Reconstruction in the Wild
- [ICCV 2025] AJAHR: Amputated Joint Aware 3D Human Mesh Recovery
- [ECCV 2024] Global-to-Pixel Regression for Human Mesh Recovery